商务合作QQ:289-585-305 投稿邮箱:admin#bigdata.ren（把#换成@）

开启辅助访问设为首页微信公众号收藏本站每日签到 QQ群 VIP电影 RSS

大数据人|大数据第一社区 › 首页 ›技术› 深度学习 › 查看内容

斯坦福大学深度学习与自然语言处理第四讲：词窗口分类和神经网络

2015-9-14 10:17| 发布者: admin| 查看: 10074| 评论: 0|来自: 我爱自然语言处理

摘要: 斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程：CS224d: Deep Learning for Natural Language Processing，授课老师是青年才俊Richard Socher，以下为相关的课程笔记。第四讲：词窗口分类和神经网 ...

机器学习优化问题

机器学习优化问题

对于一般的机器学习问题θ常常只包含了W的列数：

所以我们仅仅更新决策边界

引入词向量

在深度学习中既要学习W也要学习词向量x:

重新训练词向量会丧失泛化能力

例子：针对电影评价情感数据（movie review sentiment)训练逻辑回归模型，在训练集里我们有单词”TV”和”telly”
在测试集里我们有单词“television”
原本它们是相似的单词（来自于已经训练的词向量模型）
当我们重新训练的时候会发生什么？

重新训练词向量会丧失泛化能力续

当我们重新训练词向量模型的时候会发生什么？
- 在训练集中的单词会被重新安排到合适的位置
- 在已经训练的词向量模型中但是不在训练集中的单词将保留在原来的位置
对于上例, “TV”和”telly”会被重新安排，而”television”则保留在原位，尴尬的事情就发生了：

总之：
- 如果你只有一个很小的训练集，不要训练词向量模型
- 如果你有一个足够大的训练集，那么对于相应的任务来说训练词向量模型是有益的

词向量概念回顾

词向量矩阵L也被称为查询表
Word vectors（词向量）= word embeddings(词嵌入) = word representations(mostly)
类似于word2vec或者GloVe的方法得到：

这就是词特征xword
通常通过词向量矩阵L和one-hot向量e相乘得到单个的词向量：

分享到： QQ空间新浪微博腾讯微博人人网飞信百度搜藏

123 4 5 / 5 页下一页

收藏分享邀请

上一篇：斯坦福大学深度学习与自然语言处理第三讲：高级的词向量表示下一篇：arXiv最受关注五篇深度学习论文及其解读/笔记(Hugo Larochelle)

最新评论

相关分类

站长推荐 /2

id="mn_portal" >首页Portal id="mn_P18" onmouseover="navShow('P18')">应用 id="mn_P15" onmouseover="navShow('P15')">技术 id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿 id="mn_P36" onmouseover="navShow('P36')">宝箱 id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏 id="mn_P65" >企业 id="mn_Nd633" >导航折叠导航关注微信

关注微博

关注我们

|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2 )

GMT+8, 2024-4-29 05:15 , Processed in 0.192058 second(s), 21 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

返回顶部