东方耀AI技术分享

标题: 06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model [打印本页]

作者: 东方耀 时间: 2019-10-22 12:05
标题: 06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model
06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model

为什么需要RNN？  解决序列式问题  随着时间维度的变化而变化
不定时长的数据

RNN与HMM的对比：
传统的做语音识别的用HMM效果不错
HMM里面的状态用one-hot vector  而RNN是分布式类似Embedding词向量

语言模型：判断一句话有多像人话  联合概率公式  条件概率贝叶斯公式
基于深度学习RNN的LM  每个时刻的输出是分类问题用cross-entropy loss

BPTT ：Through Time
RNN的训练为何容易梯度爆炸和梯度消失？

解决梯度爆炸比较简单：梯度截断 Gradient Clipping
解决梯度消亡是比较难的  LSTM的提出目的是为了解决RNN的梯度问题
LSTM只能部分解决RNN的梯度消失或爆炸问题不能完全解决的

LSTM的核心：通过不同的门控制信息流门相当于开关
看博客（LSTM的应用）：The Unreasonable Effectiveness of Recurrent Neural Networks
http://karpathy.github.io/2015/05/21/rnn-effectiveness/

双向LSTM
看论文（2016年）：Visualizing and Understanding Neural Models in NLP https://arxiv.org/pdf/1506.01066.pdf

GRU：Gated Recurrent Unit 比LSTM简单一些但是效果却差不多只有两个门：update gate reset gate

基于深度学习的机器翻译系统：端到端的方法多模态的学习

MultiModel Learning

Seq2Seq Model
meaning space

东方老师AI官网：http://www.ai111.vip
有任何问题可联系东方老师微信：dfy_88888
【微信二维码图片】

欢迎光临东方耀AI技术分享 (http://www.ai111.vip/)