东方耀AI技术分享

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 2254|回复: 0

[学习笔记] 004、分词算法:最大匹配、基于LM、维特比算法

[复制链接]

1365

主题

1856

帖子

1万

积分

管理员

Rank: 10Rank: 10Rank: 10

积分
14418
QQ
发表于 2019-10-6 11:01:23 | 显示全部楼层 |阅读模式
004、分词算法:最大匹配、基于LM、维特比算法


最大匹配的分词算法 MaxMatching
前向 后向 双向 最大匹配


max_length 一般设置在5-10之间
另外将语料库中的单词按长度排序


贪心算法:局部最优解
动态规划DP:全局最优


统计结果显示:90%的情况下 前向最大匹配结果=后向最大匹配结果
最大匹配的分词算法缺点:
1、不能考虑短单词的情况
2、贪心算法 局部最优解
3、效率不高 依赖max_length超参
4、不能更好的处理歧义(不考虑语义 上下文语境)


基于语言模型的分词(考虑语义)
有一个工具来评估分词后的效果咋样 概率值(有多像人话?)
这个工具是基于语言模型LM的 计算出一个 概率值


语言模型 比较简单的:unigram-model
unigram,bigram,trigram : n-gram
假设这个语言模型已经训练好了
log(ab) = log(a) + log(b)  加log避免underflow or overflow


考虑语义的分词有两步:
1、生成所有可能的分割 2、评估每一个并选择最好的


但是效率太低,如何解决效率问题?
使用维特比算法:动态规划DP算法



东方老师AI官网:http://www.ai111.vip
有任何问题可联系东方老师微信:dfy_88888
【微信二维码图片】

06.png
07.png
08.png
09.png
10.png
11.png
让天下人人学会人工智能!人工智能的前景一片大好!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|人工智能工程师的摇篮 ( 湘ICP备2020019608号-1 )

GMT+8, 2024-3-28 23:08 , Processed in 0.194444 second(s), 22 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表