2020-01-11
word2vec
词袋
每个词有一个对应的onehot编码
可以得到文本的向量化结果,向量长度为词典大小,向量各个位置的值代表该词出行次数,存在的问题:
1.纬度灾难
2.未保留语序
3.语义鸿沟
n-gram
认为一个词的出现只与它前面n-1个词相关

连续词袋
去掉了最耗时的非线性隐藏层

假设目标词前后各取k个词,即窗口的大小是k,那么CBOW模型预测的将是

输入层到隐藏层,求和平均

隐藏层到输出层

最大化函数

skip gram

kip-Gram模型预测的是 [图片上传失败...(image-abc294-1578728260679)]
由于图中词前后只取了各两个词,所以窗口的总大小是2。假设词前后各取k个词,即窗口的大小是k,那么Skip-Gram模型预测的将是

输入层到隐藏层

隐藏层到输出层

最大化函数

网友评论