|
004、分词算法:最大匹配、基于LM、维特比算法
最大匹配的分词算法 MaxMatching
前向 后向 双向 最大匹配
max_length 一般设置在5-10之间
另外将语料库中的单词按长度排序
贪心算法:局部最优解
动态规划DP:全局最优
统计结果显示:90%的情况下 前向最大匹配结果=后向最大匹配结果
最大匹配的分词算法缺点:
1、不能考虑短单词的情况
2、贪心算法 局部最优解
3、效率不高 依赖max_length超参
4、不能更好的处理歧义(不考虑语义 上下文语境)
基于语言模型的分词(考虑语义)
有一个工具来评估分词后的效果咋样 概率值(有多像人话?)
这个工具是基于语言模型LM的 计算出一个 概率值
语言模型 比较简单的:unigram-model
unigram,bigram,trigram : n-gram
假设这个语言模型已经训练好了
log(ab) = log(a) + log(b) 加log避免underflow or overflow
考虑语义的分词有两步:
1、生成所有可能的分割 2、评估每一个并选择最好的
但是效率太低,如何解决效率问题?
使用维特比算法:动态规划DP算法
东方老师AI官网:http://www.ai111.vip
有任何问题可联系东方老师微信:dfy_88888
【微信二维码图片】
|
|