RNN梯度问题,rnn梯度推导

RNN梯度问题

摘要：

梯度消失的原因：在多层网络中，影响梯度大小的因素主要有两个：权重和激活函数的偏导。因而，梯度的计算和更新非常困难。gate是由一个sigmoid单元和一个逐点乘积操作组成，sigmoid单元输出1或0，用来判断通过还是阻止，然后训练这些gate的组合。并且sigmoid不超过1，那么梯度也不会explode。所以，无论网络的深度有多深，输入序列有多长，只要gate是打开的，网络都会记住这些信息。

梯度消失的原因：

在多层网络中，影响梯度大小的因素主要有两个：权重和激活函数的偏导。深层的梯度是多个激活函数偏导乘积的形式来计算，如果这些激活函数的偏导比较小（小于1）或者为0，那么梯度随时间很容易vanishing；相反，如果这些激活函数的偏导比较大（大于1），那么梯度很有可能就会exploding。因而，梯度的计算和更新非常困难。

解决方案：

使用一个合适激活函数，它的梯度在一个合理的范围。LSTM使用gate function，有选择的让一部分信息通过。gate是由一个sigmoid单元和一个逐点乘积操作组成，sigmoid单元输出1或0，用来判断通过还是阻止，然后训练这些gate的组合。所以，当gate是打开的（梯度接近于1），梯度就不会vanish。并且sigmoid不超过1，那么梯度也不会explode。

RNN梯度问题第1张

LSTM的效果：

1、当gate是关闭的，那么就会阻止对当前信息的改变，这样以前的依赖信息就会被学到。

2、当gate是打开的时候，并不是完全替换之前的信息，而是在之前信息和现在信息之间做加权平均。所以，无论网络的深度有多深，输入序列有多长，只要gate是打开的，网络都会记住这些信息。

RNN梯度问题第2张

RNN梯度问题第3张

免责声明：文章转载自《RNN梯度问题》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

RNN梯度问题

相关文章

深度学习——卷积神经网络入门

数据挖掘实践（19）：算法基础（二）Logistic回归（逻辑斯蒂）算法

计算流体模拟理论2

数学基础系列(二)----偏导数、方向导数、梯度、微积分

机器学习优化器总结

最优化梯度海塞矩阵

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

RNN梯度问题

相关文章

深度学习——卷积神经网络入门

数据挖掘实践（19）：算法基础（二）Logistic回归（逻辑斯蒂）算法

计算流体模拟理论2

数学基础系列(二)----偏导数、方向导数、梯度、微积分

机器学习优化器总结

最优化 梯度 海塞矩阵

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

最优化梯度海塞矩阵