大数据人|大数据第一社区

 找回密码
 注册会员

扫一扫,访问微社区

斯坦福大学深度学习与自然语言处理第四讲:词窗口分类和神经网络

2015-9-14 10:17| 发布者: admin| 查看: 10074| 评论: 0|来自: 我爱自然语言处理

摘要: 斯坦福大学在三月份开设了一门“深度学习与自然语言处理”的课程:CS224d: Deep Learning for Natural Language Processing,授课老师是青年才俊Richard Socher,以下为相关的课程笔记。第四讲:词窗口分类和神经网 ...
机器学习优化问题


机器学习优化问题

    • 对于一般的机器学习问题θ常常只包含了W的列数:

屏幕快照 2015-09-07 下午5.40.24

    • 所以我们仅仅更新决策边界

屏幕快照 2015-09-07 下午5.40.59

引入词向量

    • 在深度学习中既要学习W也要学习词向量x:

屏幕快照 2015-09-07 下午5.48.41

重新训练词向量会丧失泛化能力

    • 例子:针对电影评价情感数据(movie review sentiment)训练逻辑回归模型,在训练集里我们有单词”TV”和”telly”
    • 在测试集里我们有单词“television”
    • 原本它们是相似的单词(来自于已经训练的词向量模型)
    • 当我们重新训练的时候会发生什么?

屏幕快照 2015-09-07 下午6.27.45

重新训练词向量会丧失泛化能力续

    • 当我们重新训练词向量模型的时候会发生什么?
      • 在训练集中的单词会被重新安排到合适的位置
      • 在已经训练的词向量模型中但是不在训练集中的单词将保留在原来的位置
    • 对于上例, “TV”和”telly”会被重新安排,而”television”则保留在原位,尴尬的事情就发生了:

屏幕快照 2015-09-07 下午6.32.10

  • 总之:
    • 如果你只有一个很小的训练集,不要训练词向量模型
    • 如果你有一个足够大的训练集,那么对于相应的任务来说训练词向量模型是有益的

词向量概念回顾

    • 词向量矩阵L也被称为查询表
    • Word vectors(词向量)= word embeddings(词嵌入) = word representations(mostly)
    • 类似于word2vec或者GloVe的方法得到:

屏幕快照 2015-09-08 上午10.56.48

    • 这就是词特征xword
    • 通常通过词向量矩阵L和one-hot向量e相乘得到单个的词向量:

屏幕快照 2015-09-08 上午10.59.03



鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

站长推荐上一条 /2 下一条


id="mn_portal" >首页Portalid="mn_P18" onmouseover="navShow('P18')">应用id="mn_P15" onmouseover="navShow('P15')">技术id="mn_P37" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">前沿id="mn_P36" onmouseover="navShow('P36')">宝箱id="mn_P61" onmouseover="showMenu({'ctrlid':this.id,'ctrlclass':'hover','duration':2})">专栏id="mn_P65" >企业id="mn_Nd633" >导航 折叠导航 关注微信 关注微博 关注我们

QQ|广告服务|关于我们|Archiver|手机版|小黑屋|大数据人 ( 鄂ICP备14012176号-2  

GMT+8, 2024-4-29 05:15 , Processed in 0.192058 second(s), 21 queries .

Powered by 小雄! X3.2

© 2014-2020 bigdataer Inc.

返回顶部