东方耀AI技术分享

标题: 06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model [打印本页]

作者: 东方耀    时间: 2019-10-22 12:05
标题: 06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model
06、RNN、LSTM、GRU、MultiModel、Seq2Seq Model


为什么需要RNN?  解决序列式问题  随着时间维度的变化而变化
不定时长的数据


RNN与HMM的对比:
传统的做语音识别的用HMM效果不错
HMM里面的状态用one-hot vector  而RNN是分布式 类似Embedding词向量


语言模型:判断一句话有多像人话  联合概率公式  条件概率 贝叶斯公式
基于深度学习RNN的LM  每个时刻的输出是分类问题 用cross-entropy loss


BPTT :Through Time
RNN的训练为何容易梯度爆炸和梯度消失?


解决梯度爆炸比较简单:梯度截断 Gradient Clipping
解决梯度消亡是比较难的  LSTM的提出目的是为了解决RNN的梯度问题
LSTM只能部分解决RNN的梯度消失或爆炸问题 不能完全解决的


LSTM的核心:通过不同的门控制信息流   门相当于开关
看博客(LSTM的应用):The Unreasonable Effectiveness of Recurrent Neural Networks
http://karpathy.github.io/2015/05/21/rnn-effectiveness/


双向LSTM
看论文(2016年):Visualizing and Understanding Neural Models in NLP https://arxiv.org/pdf/1506.01066.pdf


GRU:Gated Recurrent Unit   比LSTM简单一些 但是效果却差不多   只有两个门:update gate   reset gate


基于深度学习的机器翻译系统:端到端的方法   多模态的学习


MultiModel Learning


Seq2Seq Model
meaning space








东方老师AI官网:http://www.ai111.vip
有任何问题可联系东方老师微信:dfy_88888
【微信二维码图片】







欢迎光临 东方耀AI技术分享 (http://www.ai111.vip/) Powered by Discuz! X3.4