|
006、词向量:分布式的表示方法
单词之间的相似度,词向量还是用One-Hot表示 欧式距离与余弦相似度都不行
问题:有没有可能用来表示语义的相似度? 没有办法的
问题出在:词向量不能用One-Hot表示
什么叫词向量?什么叫分布式的表示方法?
One-Hot表示的问题or缺点:
1、不能表示语义的相似度
2、Sparsity 稀疏性(词向量or句子向量的长度=词库的长度)
从One-Hot表示到分布式的表示方法:
1、分布式的表示方法中 词向量or句子向量的长度=自己定义的 100维 200维 最多300维 跟词库的长度没有关系 解决了Sparsity的问题
2、向量中的每个位置都有一个非0的数值
3、同样的100维向量 One-Hot方法只能表示100个不同单词 而分布式的表示方法则可以表示正无穷个不同单词 他们的容量空间天差地别
词向量的训练Word Embedding是需要大量的语料库的 有些大公司有现成的已经训练好的 但是对于特殊领域(金融 医疗等)需要自己训练
理想中的词向量希望是可以表示词的意思的
如何从词向量得出某个句子的向量:方法很多 先来看平均的方法
为什么叫分布式的表示方法?在深度学习再说
东方老师AI官网:http://www.ai111.vip
有任何问题可联系东方老师微信:dfy_88888
【微信二维码图片】
|
-
01.png
(740.67 KB, 下载次数: 187)
-
02.png
(385.93 KB, 下载次数: 184)
-
03.png
(556.46 KB, 下载次数: 185)
-
04.png
(617.98 KB, 下载次数: 180)
-
05.png
(916.89 KB, 下载次数: 179)
-
06.png
(659.64 KB, 下载次数: 186)
-
07.png
(679.72 KB, 下载次数: 182)
-
08.png
(653.16 KB, 下载次数: 186)
-
09.png
(439.68 KB, 下载次数: 180)
-
10.png
(504.79 KB, 下载次数: 181)
-
11.png
(601.94 KB, 下载次数: 184)
|