LSTM 详解,lstm csdn - 开发者博客

LSTM 详解

摘要：

所以引入了LSTM，LSTM相当于RNN的改进版。一个LSTM单元，也就是一层LSTM，我们在图示中经常会根据T展开，但是他们其实是同一层LSTM。a在其他地方经常写成h，及隐藏层的输出：units:是outputsize,也就是hiddenlayer的神经元数量#units:是outputsize,也就是hiddenlayer的神经元数量，也就是隐藏层输出的sizeunits=2fromkeras.modelsimportModelfromkeras.layersimportInputfromkeras.layersimportLSTMfromnumpyimportarray#definemodelinputs1=Inputlstm1=LSTMmodel=Model#defineinputdatadata=array.reshape#makeandshowpredictionprint#========================#return_sequence=True#则会输出每个时序输出的hidden_state_outputunits=2fromkeras.modelsimportModelfromkeras.layersimportInputfromkeras.layersimportLSTMfromnumpyimportarray#definemodelinputs1=Inputlstm1=LSTMmodel=Model#defineinputdatadata=array.reshape#makeandshowpredictionprint#========================#如果是return_state=True【注意！！！！！！！！！】LSTM的输出，称之为hidden_state。

1、定义：什么是LSTM？

首先，我们知道最基础的神经网络是【全连接神经网络】，keras里为，dense层。Dense就是常用的全连接层，所实现的运算是output = activation(dot(input, kernel)+bias)。其中activation是逐元素计算的激活函数，kernel是本层的权值矩阵，bias为偏置向量，只有当use_bias=True才会添加。

然后是卷积神经网络。卷积神经网络主要用在图片上，将一张很大的图片提取出图片的特征，其中还涉及了padding。

他们在处理【前一个输入】和【后一个输入】是完全没有关系的。但是，某些任务需要能够更好的处理序列的信息，即前面的输入和后面的输入是有关系的。比如，当我们在理解一句话意思时，孤立的理解这句话的每个词是不够的，我们需要处理这些词连接起来的整个序列；当我们处理视频的时候，我们也不能只单独的去分析每一帧，而要分析这些帧连接起来的整个序列。

这时，就需要用到深度学习领域中另一类非常重要神经网络：循环神经网络(Recurrent Neural Network)

但是传统的RNN有一个重大缺陷，就是在前向传播的过程当中会出现梯度消失的问题，梯度消失会导致一句话如果比较长，第一个字到后面的时候，都已经被忘记了。

所以引入了LSTM，LSTM相当于RNN的改进版。

LSTM 详解第1张

【注意】一个LSTM单元，也就是一层LSTM，我们在图示中经常会根据T展开，但是他们其实是同一层LSTM。

a<t>在其他地方经常写成h<t>，及隐藏层的输出

【keras中LSTM的参数】：

units: 是output size, 也就是hidden layer的神经元数量

#units: 是output size, 也就是hidden layer的神经元数量，也就是隐藏层输出的size
units = 2
from keras.models import Model
from keras.layers import Input
from keras.layers import LSTM
from numpy import array
# define model
inputs1 = Input(shape=(5, 1))
lstm1 = LSTM(units)(inputs1)
model = Model(inputs=inputs1, outputs=lstm1)
# define input data
data = array([0.1, 0.2, 0.3,0.4,0.5]).reshape((1,5,1))
# make and show prediction
print(model.predict(data))
#========================
#return_sequence=True (默认是False)
#则会输出每个时序输出的hidden_state_output
units = 2
from keras.models import Model
from keras.layers import Input
from keras.layers import LSTM
from numpy import array
# define model
inputs1 = Input(shape=(5, 1))
lstm1 = LSTM(units, return_sequences=True)(inputs1)
model = Model(inputs=inputs1, outputs=lstm1)
# define input data
data = array([0.1, 0.2, 0.3,0.4,0.5]).reshape((1,5,1))
# make and show prediction
print(model.predict(data))
#========================

#如果是return_state=True
【注意！！！！！！！！！】
LSTM的输出，称之为hidden_state。简写h，也就是NG说的a，但是这个其实非常容易混淆
因为LSTM还保留了另外一个记忆cell的状态，简写为c
一般来说，我们不需要接触c，但是在一些复杂模型，比如seq2seq的模型里，需要用t-1时刻的c来初始化t时刻的c

#如果是return_state=True,而return_sequence=True
#这个时候我们就知道，为什么上一个例子，同样的output需要输出两次。
#因为return_sequence=True,是针对于整个output,也就是
#lstm1 = LSTM(units, return_sequences=True)(inputs1)
#中的lstm1,而如果进行了return_state, 则state_h就是最后一刻的输出，而state_c是 c
from keras.models import Model
from keras.layers import Input
from keras.layers import LSTM
from numpy import array
# define model
inputs1 = Input(shape=(5, 1))
lstm1, state_h, state_c = LSTM(2, return_sequences=True, return_state=True)(inputs1)
model = Model(inputs=inputs1, outputs=[lstm1, state_h, state_c])
# define input data
data = array([0.1, 0.2, 0.3,0.4,0.5]).reshape((1,5,1))
# make and show prediction
print(model.predict(data))
#注意，predict data之后，输出的是3个东西
=============特别注释=================
1、state_c不是一个值，它的维度和state_h一样，是unit是数量
2、 上一次的状态 h(t-1)是怎么和下一次的输入 x(t) 结合（concat）起来的，这也是很多资料没有明白讲的地方，也很简单，concat， 直白的说就是把二者直接拼起来。
比如 x是28位的向量，h(t-1)是128位的，那么拼起来就是156位的向量，就是这么简单。

免责声明：文章转载自《LSTM 详解》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

LSTM 详解

相关文章

【美国大学生数学建模比赛】2020C题（总结和参赛论文）百度云请自取

网络剪枝和共享

Debug 路漫漫-08：Keras 版本升级函数变换导致的问题

CS231N 数据预处理(data proprecessing)

神经机器翻译（NMT）相关资料整理

word2vec 独热编码One-Hot

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表