RNN梯度问题

摘要:
梯度消失的原因:在多层网络中,影响梯度大小的因素主要有两个:权重和激活函数的偏导。因而,梯度的计算和更新非常困难。gate是由一个sigmoid单元和一个逐点乘积操作组成,sigmoid单元输出1或0,用来判断通过还是阻止,然后训练这些gate的组合。并且sigmoid不超过1,那么梯度也不会explode。所以,无论网络的深度有多深,输入序列有多长,只要gate是打开的,网络都会记住这些信息。

梯度消失的原因

在多层网络中,影响梯度大小的因素主要有两个:权重和激活函数的偏导。深层的梯度是多个激活函数偏导乘积的形式来计算,如果这些激活函数的偏导比较小(小于1)或者为0,那么梯度随时间很容易vanishing;相反,如果这些激活函数的偏导比较大(大于1),那么梯度很有可能就会exploding。因而,梯度的计算和更新非常困难。

解决方案:

使用一个合适激活函数,它的梯度在一个合理的范围。LSTM使用gate function,有选择的让一部分信息通过。gate是由一个sigmoid单元和一个逐点乘积操作组成,sigmoid单元输出1或0,用来判断通过还是阻止,然后训练这些gate的组合。所以,当gate是打开的(梯度接近于1),梯度就不会vanish。并且sigmoid不超过1,那么梯度也不会explode。

RNN梯度问题第1张

LSTM的效果:

1、当gate是关闭的,那么就会阻止对当前信息的改变,这样以前的依赖信息就会被学到。

2、当gate是打开的时候,并不是完全替换之前的信息,而是在之前信息和现在信息之间做加权平均。所以,无论网络的深度有多深,输入序列有多长,只要gate是打开的,网络都会记住这些信息。

RNN梯度问题第2张

RNN梯度问题第3张

免责声明:文章转载自《RNN梯度问题》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Unity3D教程宝典之Shader篇图解Javascript——执行上下文下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

深度学习——卷积神经网络入门

传统神经网络:   是全连接形式,即样本的每个特征属性都通过所有的隐藏层节点映射,最后输出数据。由于是全连接,所以计算极为复杂,且模型不易学习。 卷积神经网络:卷积神经网络(Convolutional Neural Networks, CNN), CNN可以有效的降低反馈神经网络(传统神经网络)的复杂性,常见的CNN结构有LeNet-5、AlexNet、Z...

数据挖掘实践(19):算法基础(二)Logistic回归(逻辑斯蒂)算法

1 基本函数确立 1.1 Sigmoid函数:变量以及自变量 而当我们考虑二值化问题时,由于目标变量只能取0或1,因此我们选择了值域在{0,1}区间的Sigmoid函数 Sigmoid函数又叫做Logistic函数,或者Logistic Sigmoid函数,也被经常称作S型曲线    1.2 提问  1.3 代码实验 import numpy as n...

计算流体模拟理论2

二维的NS-方程:   这个方程一定要拆分成部分才能解出来。 这里面我感觉只要把泊松方程解法搞定,基本快出山写最简单的 "计算流体" 完全没问题 以下是做了个初始的source field,用python numpy 先快速撸了一遍算法。 并且重新实现3d版本在Houdini中,houdini有更好的可视化. velocity advection 是RK...

数学基础系列(二)----偏导数、方向导数、梯度、微积分

一、偏导数 对于一元函数y=f(x)只存在y随x的变化,但是二元函数z=f(x,y)存在z随x变化的变化率,随y变化的变化率,随x﹑y同时变化的变化率。如下图所示 1、偏导数定义 设函数$z=f(x,y)$在点(x0,y0)的某个邻域内有定义,定y=y0,一元函数$f(x_{0},y_{0})$在点x=x0处可导,即极限$limlimits_{Delta...

机器学习优化器总结

一、梯度下降法 1、标准梯度下降法(GD) 公式:Wt+1=Wt−ηtΔJ(Wt) 其中,WtWt表示tt时刻的模型参数。 从表达式来看,模型参数的更新调整,与代价函数关于模型参数的梯度有关,即沿着梯度的方向不断减小模型参数,从而最小化代价函数。 基本策略可以理解为”在有限视距内寻找最快路径下山“,因此每走一步,参考当前位置最陡的方向(即梯度)进而迈出下一...

最优化 梯度 海塞矩阵

一、方向导数 limt->0f(x0+td)-f(x0) / t 存在 则该极限为f在x0处沿方向d的方向导数 记为 ∂ f/∂ d 下降方向: 方向导数∂ f/∂ d <0 ,则d为f在x0处的下降方向 二、梯度 对于向量x,若每个偏导数 ∂ f/∂ x(i) 都存在 则列向量为f在x处的梯度 记号 ▽f(x) 三、可微与梯度 可微则一定存在...