东方耀AI技术分享

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 4991|回复: 2
打印 上一主题 下一主题

[学习笔记] 001、NLP的概念、应用场景与关键技术

[复制链接]

1365

主题

1856

帖子

1万

积分

管理员

Rank: 10Rank: 10Rank: 10

积分
14437
QQ
跳转到指定楼层
楼主
发表于 2019-10-4 11:47:54 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
001、NLP的概念、应用场景与关键技术


什么是NLP?
NLP=NLU(自然语言理解)+ NLG(自然语言生成)


为什么说NLP比CV要难?
Ambiguous 模棱两可的; 含混不清的; 不明确的
Ambiguity 一词多义
语言歧义 结构 语法 句法 图片是静态的  不同语境不同意思
中文会有很多新词出现
语言的意思到底如何量化?
文本 图片  NLP的pipeline比cv要长
NLP一定要考虑上下文(context)
基于规则的 or 知识图谱


研究难点:
1、单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。
在书写上,汉语也没有词与词之间的边界
2、词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释
3、句法的模糊性
自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),
而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树
4、有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误
5、语言行为与计划
句子常常并不只是字面上的意思;
例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;
在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。
再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”
回答“去年没开这门课”要比回答“没人没通过”好。


如果现在让你写一个机器翻译系统,怎么实现?
最简单的:根据语料库 做统计分析 SMT(统计机器翻译)
存在什么问题:
1、oov (out of vocabulary)(character -ngram or Fast Text)
2、一词多义(要根据上下文)
3、语序不一定正确 通顺(语法规则的问题 语言模型LM)


在传统NLP中语言模型绝大部分是N-gram
在深度学习NLP中语言模型是指RNN/LSTM
bert严格来说不算语言模型
bert是得到更加高效的词向量 可以理解为word2vec的升级版本


NLP的应⽤场景
1、问答系统 智能客服
2、情感分析
3、机器翻译(seq2seq + Attention)
4、文本自动摘要 Text Summarization
5、聊天机器人  (闲聊的 or 目标导向的task oriented) 订机票任务等
6、信息抽取 information Extraction


NLP算法可以应用到推荐系统
推荐系统算法分为:协同过滤 和 基于内容的推荐
如果是基于内容的推荐很大概率会用到NLP算法,比如新闻的推荐


NLPCC上面有现成的关于新闻的数据
情感分析比较成熟了,讽刺检测这个问题非常难




NLP领域关键技术
1、语义 semantic
2、句子结构 syntax
3、单词 morphology
4、声音 phonetics


这是基础技术建设:
分词 word segmentation  目前分词的准确率可以达到95%以上 比较成熟了 是已解决的问题
词性分析 part-of-speech:动词 名词 代词 介词
命名实体识别 Named Entity Recognition :找到我们所关心的关键的实体(时间 地点 人名 机构名 产品名等)




句法分析 Parsing   依存文法分析比句法分析用得多
信息抽取 information Extraction


01.png (33.9 KB, 下载次数: 322)

01.png

02.png (69.58 KB, 下载次数: 320)

02.png

03.png (48.58 KB, 下载次数: 323)

03.png

04.png (36.85 KB, 下载次数: 327)

04.png

05.png (76.2 KB, 下载次数: 324)

05.png

06.png (147.29 KB, 下载次数: 324)

06.png

07.png (99.74 KB, 下载次数: 324)

07.png

08.png (327.39 KB, 下载次数: 332)

08.png

09.png (527.47 KB, 下载次数: 318)

09.png

10.png (300.69 KB, 下载次数: 324)

10.png

11.png (58.86 KB, 下载次数: 327)

11.png

12.png (359.99 KB, 下载次数: 320)

12.png

13.png (186.09 KB, 下载次数: 319)

13.png

14.png (367.1 KB, 下载次数: 325)

14.png

15.png (350.63 KB, 下载次数: 316)

15.png

16.png (63.84 KB, 下载次数: 319)

16.png

17.png (460.49 KB, 下载次数: 320)

17.png
让天下人人学会人工智能!人工智能的前景一片大好!
回复

使用道具 举报

1365

主题

1856

帖子

1万

积分

管理员

Rank: 10Rank: 10Rank: 10

积分
14437
QQ
沙发
 楼主| 发表于 2019-10-4 12:04:32 | 只看该作者
东方老师AI官网:http://www.ai111.vip
有任何问题可联系东方老师微信:dfy_88888
【微信二维码图片】
让天下人人学会人工智能!人工智能的前景一片大好!
回复

使用道具 举报

0

主题

13

帖子

54

积分

2W人工智能培训

Rank: 10Rank: 10Rank: 10

积分
54
板凳
发表于 2020-5-28 22:37:03 | 只看该作者
东方老师有亲自授课的NLP视频课程吗,想听
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|人工智能工程师的摇篮 ( 湘ICP备2020019608号-1 )

GMT+8, 2024-5-5 17:58 , Processed in 0.220439 second(s), 25 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表