东方耀AI技术分享
标题:
06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model
[打印本页]
作者:
东方耀
时间:
2019-10-22 12:05
标题:
06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model
06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model
为什么需要RNN? 解决序列式问题 随着时间维度的变化而变化
不定时长的数据
RNN与HMM的对比:
传统的做语音识别的用HMM效果不错
HMM里面的状态用one-hot vector 而RNN是分布式 类似Embedding词向量
语言模型:判断一句话有多像人话 联合概率公式 条件概率 贝叶斯公式
基于深度学习RNN的LM 每个时刻的输出是分类问题 用cross-entropy loss
BPTT :Through Time
RNN的训练为何容易梯度爆炸和梯度消失?
解决梯度爆炸比较简单:梯度截断 Gradient Clipping
解决梯度消亡是比较难的 LSTM的提出目的是为了解决RNN的梯度问题
LSTM只能部分解决RNN的梯度消失或爆炸问题 不能完全解决的
LSTM的核心:通过不同的门控制信息流 门相当于开关
看博客(LSTM的应用):The Unreasonable Effectiveness of Recurrent Neural Networks
http://karpathy.github.io/2015/05/21/rnn-effectiveness/
双向LSTM
看论文(2016年):Visualizing and Understanding Neural Models in NLP
https://arxiv.org/pdf/1506.01066.pdf
GRU:Gated Recurrent Unit 比LSTM简单一些 但是效果却差不多 只有两个门:update gate reset gate
基于深度学习的机器翻译系统:端到端的方法 多模态的学习
MultiModel Learning
Seq2Seq Model
meaning space
东方老师AI官网:
http://www.ai111.vip
有任何问题可联系东方老师微信:dfy_88888
【微信二维码图片】
欢迎光临 东方耀AI技术分享 (http://www.ai111.vip/)
Powered by Discuz! X3.4