东方耀AI技术分享

标题: 006、词向量：分布式的表示方法 [打印本页]

作者: 东方耀 时间: 2019-10-14 20:10
标题: 006、词向量：分布式的表示方法
006、词向量：分布式的表示方法

单词之间的相似度，词向量还是用One-Hot表示欧式距离与余弦相似度都不行
问题：有没有可能用来表示语义的相似度？没有办法的
问题出在：词向量不能用One-Hot表示

什么叫词向量？什么叫分布式的表示方法？
One-Hot表示的问题or缺点：
1、不能表示语义的相似度
2、Sparsity 稀疏性（词向量or句子向量的长度=词库的长度）

从One-Hot表示到分布式的表示方法：
1、分布式的表示方法中词向量or句子向量的长度=自己定义的 100维 200维最多300维跟词库的长度没有关系解决了Sparsity的问题
2、向量中的每个位置都有一个非0的数值
3、同样的100维向量 One-Hot方法只能表示100个不同单词而分布式的表示方法则可以表示正无穷个不同单词他们的容量空间天差地别

词向量的训练Word Embedding是需要大量的语料库的有些大公司有现成的已经训练好的但是对于特殊领域（金融医疗等）需要自己训练
理想中的词向量希望是可以表示词的意思的

如何从词向量得出某个句子的向量：方法很多先来看平均的方法

为什么叫分布式的表示方法？在深度学习再说

东方老师AI官网：http://www.ai111.vip
有任何问题可联系东方老师微信：dfy_88888
【微信二维码图片】

欢迎光临东方耀AI技术分享 (http://www.ai111.vip/)