百面深度学习 第二章:循环神经网络
基于变分推理的Droupout方法:提出对于同一个序列,在其所有时刻的循环连接上采用相同的丢弃方法,也就是说不同时刻丢弃的连接是相同的。四、RNN的长期依赖问题严重,因为其重复使用相同的循环模块(即W),导致网络在信息前向传播过程和误差反向传播过程中都出现了矩阵的幂,容易造成信息\梯度的消失或爆炸。总之,LSTM通过门控单元以及元胞状态单元的线性自循环,给梯度的长距离持续流通提供了路径,改变了之前
一、循环神经网络
特点是设计了循环/重复的结构,称之为”事件链“
二、卷积神经网络也被用来处理序列数据
一些工作将序列数据建模为二维网络型数据,也有一些建模为一维网格型数据
1)一维网格型数据
因果卷积:捕获序列数据在时间上的依赖关系
空洞卷积:增大感受野,是构建长期记忆功能所必需的
三、RNN中的Droupout
作用:1.Droupout可以看作是集成了大量神经网络的Bagging方法
2.Droupout能够减少神经元之间复杂的共适应关系,训练过程中 网络权值的更新不会依赖于隐节点之间的固定关系,使得网络能够学习到一些更加泛化的特征。
基于变分推理的Droupout方法:提出对于同一个序列,在其所有时刻的循环连接上采用相同的丢弃方法,也就是说不同时刻丢弃的连接是相同的。注意只随即丢弃连接 不是神经元,避免记忆能力减退。
四、RNN的长期依赖问题严重,因为其重复使用相同的循环模块(即W),导致网络在信息前向传播过程和误差反向传播过程中都出现了矩阵的幂,容易造成信息\梯度的消失或爆炸。
-----解决方案:合适的激活函数、合适的初始化权重、加入正则化;
网络结构方面:在时间维度上添加跳跃连接,可以构造具有较长延迟的RNN
五、Long Short Term Memory Network
增设了元胞状态单元,利用3个门控单元和状态单元进行长短期记忆:
首先由遗忘门和输入们决定元胞状态单元的值,然后LSTM的隐藏状态单元则由输出门和状态单元决定。
总之,LSTM通过门控单元以及元胞状态单元的线性自循环,给梯度的长距离持续流通提供了路径,改变了之前RNN中信息和梯度的传播方式,解决了长期依赖。
六、门控循环单元 GRU
重置门决定先前的隐藏状态单元是否被忽略,更新门则控制当前隐藏状态单元是否需要被新的隐藏状态单元更新。
更多推荐
所有评论(0)