|
001、NLP的概念、应用场景与关键技术
什么是NLP?
NLP=NLU(自然语言理解)+ NLG(自然语言生成)
为什么说NLP比CV要难?
Ambiguous 模棱两可的; 含混不清的; 不明确的
Ambiguity 一词多义
语言歧义 结构 语法 句法 图片是静态的 不同语境不同意思
中文会有很多新词出现
语言的意思到底如何量化?
文本 图片 NLP的pipeline比cv要长
NLP一定要考虑上下文(context)
基于规则的 or 知识图谱
研究难点:
1、单词的边界界定
在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。
在书写上,汉语也没有词与词之间的边界
2、词义的消歧
许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释
3、句法的模糊性
自然语言的文法通常是模棱两可的,针对一个句子通常可能会剖析(Parse)出多棵剖析树(Parse Tree),
而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树
4、有瑕疵的或不规范的输入
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误
5、语言行为与计划
句子常常并不只是字面上的意思;
例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;
在大多数上下文环境中,“能”将是糟糕的回答,虽说回答“不”或者“太远了我拿不到”也是可以接受的。
再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”
回答“去年没开这门课”要比回答“没人没通过”好。
如果现在让你写一个机器翻译系统,怎么实现?
最简单的:根据语料库 做统计分析 SMT(统计机器翻译)
存在什么问题:
1、oov (out of vocabulary)(character -ngram or Fast Text)
2、一词多义(要根据上下文)
3、语序不一定正确 通顺(语法规则的问题 语言模型LM)
在传统NLP中语言模型绝大部分是N-gram
在深度学习NLP中语言模型是指RNN/LSTM
bert严格来说不算语言模型
bert是得到更加高效的词向量 可以理解为word2vec的升级版本
NLP的应⽤场景
1、问答系统 智能客服
2、情感分析
3、机器翻译(seq2seq + Attention)
4、文本自动摘要 Text Summarization
5、聊天机器人 (闲聊的 or 目标导向的task oriented) 订机票任务等
6、信息抽取 information Extraction
NLP算法可以应用到推荐系统
推荐系统算法分为:协同过滤 和 基于内容的推荐
如果是基于内容的推荐很大概率会用到NLP算法,比如新闻的推荐
NLPCC上面有现成的关于新闻的数据
情感分析比较成熟了,讽刺检测这个问题非常难
NLP领域关键技术
1、语义 semantic
2、句子结构 syntax
3、单词 morphology
4、声音 phonetics
这是基础技术建设:
分词 word segmentation 目前分词的准确率可以达到95%以上 比较成熟了 是已解决的问题
词性分析 part-of-speech:动词 名词 代词 介词
命名实体识别 Named Entity Recognition :找到我们所关心的关键的实体(时间 地点 人名 机构名 产品名等)
句法分析 Parsing 依存文法分析比句法分析用得多
信息抽取 information Extraction
|
-
01.png
(33.9 KB, 下载次数: 353)
-
02.png
(69.58 KB, 下载次数: 351)
-
03.png
(48.58 KB, 下载次数: 354)
-
04.png
(36.85 KB, 下载次数: 358)
-
05.png
(76.2 KB, 下载次数: 355)
-
06.png
(147.29 KB, 下载次数: 354)
-
07.png
(99.74 KB, 下载次数: 355)
-
08.png
(327.39 KB, 下载次数: 363)
-
09.png
(527.47 KB, 下载次数: 349)
-
10.png
(300.69 KB, 下载次数: 355)
-
11.png
(58.86 KB, 下载次数: 358)
-
12.png
(359.99 KB, 下载次数: 351)
-
13.png
(186.09 KB, 下载次数: 350)
-
14.png
(367.1 KB, 下载次数: 356)
-
15.png
(350.63 KB, 下载次数: 347)
-
16.png
(63.84 KB, 下载次数: 350)
-
17.png
(460.49 KB, 下载次数: 351)
|