LSTM 详解

摘要:
所以引入了LSTM,LSTM相当于RNN的改进版。一个LSTM单元,也就是一层LSTM,我们在图示中经常会根据T展开,但是他们其实是同一层LSTM。a在其他地方经常写成h,及隐藏层的输出:units:是outputsize,也就是hiddenlayer的神经元数量#units:是outputsize,也就是hiddenlayer的神经元数量,也就是隐藏层输出的sizeunits=2fromkeras.modelsimportModelfromkeras.layersimportInputfromkeras.layersimportLSTMfromnumpyimportarray#definemodelinputs1=Inputlstm1=LSTMmodel=Model#defineinputdatadata=array.reshape#makeandshowpredictionprint#========================#return_sequence=True#则会输出每个时序输出的hidden_state_outputunits=2fromkeras.modelsimportModelfromkeras.layersimportInputfromkeras.layersimportLSTMfromnumpyimportarray#definemodelinputs1=Inputlstm1=LSTMmodel=Model#defineinputdatadata=array.reshape#makeandshowpredictionprint#========================#如果是return_state=True【注意!!!!!!!!!】LSTM的输出,称之为hidden_state。

1、定义:什么是LSTM?

首先,我们知道最基础的神经网络是【全连接神经网络】,keras里为,dense层。Dense就是常用的全连接层,所实现的运算是output = activation(dot(input, kernel)+bias)。其中activation是逐元素计算的激活函数,kernel是本层的权值矩阵,bias为偏置向量,只有当use_bias=True才会添加。

然后是卷积神经网络。卷积神经网络主要用在图片上,将一张很大的图片提取出图片的特征,其中还涉及了padding。

他们在处理【前一个输入】和【后一个输入】是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列;当我们处理视频的时候,我们也不能只单独的去分析每一帧,而要分析这些帧连接起来的整个序列。

这时,就需要用到深度学习领域中另一类非常重要神经网络:循环神经网络(Recurrent Neural Network)

但是传统的RNN有一个重大缺陷,就是在前向传播的过程当中会出现梯度消失的问题,梯度消失会导致一句话如果比较长,第一个字到后面的时候,都已经被忘记了。

所以引入了LSTM,LSTM相当于RNN的改进版。

LSTM 详解第1张

【注意】一个LSTM单元,也就是一层LSTM,我们在图示中经常会根据T展开,但是他们其实是同一层LSTM。

a<t>在其他地方经常写成h<t>,及隐藏层的输出

【keras中LSTM的参数】:

units: 是output size, 也就是hidden layer的神经元数量

#units: 是output size, 也就是hidden layer的神经元数量,也就是隐藏层输出的size
units = 2
from keras.models import Model
from keras.layers import Input
from keras.layers import LSTM
from numpy import array
# define model
inputs1 = Input(shape=(5, 1))
lstm1 = LSTM(units)(inputs1)
model = Model(inputs=inputs1, outputs=lstm1)
# define input data
data = array([0.1, 0.2, 0.3,0.4,0.5]).reshape((1,5,1))
# make and show prediction
print(model.predict(data))
#========================
#return_sequence=True (默认是False)
#则会输出每个时序输出的hidden_state_output
units = 2
from keras.models import Model
from keras.layers import Input
from keras.layers import LSTM
from numpy import array
# define model
inputs1 = Input(shape=(5, 1))
lstm1 = LSTM(units, return_sequences=True)(inputs1)
model = Model(inputs=inputs1, outputs=lstm1)
# define input data
data = array([0.1, 0.2, 0.3,0.4,0.5]).reshape((1,5,1))
# make and show prediction
print(model.predict(data))
#========================
#如果是return_state=True
【注意!!!!!!!!!】
LSTM的输出,称之为hidden_state。简写h,也就是NG说的a,但是这个其实非常容易混淆
因为LSTM还保留了另外一个记忆cell的状态,简写为c
一般来说,我们不需要接触c,但是在一些复杂模型,比如seq2seq的模型里,需要用t-1时刻的c来初始化t时刻的c
#如果是return_state=True,而return_sequence=True
#这个时候我们就知道,为什么上一个例子,同样的output需要输出两次。
#因为return_sequence=True,是针对于整个output,也就是
#lstm1 = LSTM(units, return_sequences=True)(inputs1)
#中的lstm1,而如果进行了return_state, 则state_h就是最后一刻的输出,而state_c是 c
from keras.models import Model
from keras.layers import Input
from keras.layers import LSTM
from numpy import array
# define model
inputs1 = Input(shape=(5, 1))
lstm1, state_h, state_c = LSTM(2, return_sequences=True, return_state=True)(inputs1)
model = Model(inputs=inputs1, outputs=[lstm1, state_h, state_c])
# define input data
data = array([0.1, 0.2, 0.3,0.4,0.5]).reshape((1,5,1))
# make and show prediction
print(model.predict(data))
#注意,predict data之后,输出的是3个东西
=============特别注释=================
1、state_c不是一个值,它的维度和state_h一样,是unit是数量
2、 上一次的状态 h(t-1)是怎么和下一次的输入 x(t) 结合(concat)起来的,这也是很多资料没有明白讲的地方,也很简单,concat, 直白的说就是把二者直接拼起来。
比如 x是28位的向量,h(t-1)是128位的,那么拼起来就是156位的向量,就是这么简单。

免责声明:文章转载自《LSTM 详解》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Flutter Animation AnimatedBuilderQt带进度条的启动界面(继承QSplashScreen,然后使用定时器)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

【美国大学生数学建模比赛】2020C题(总结和参赛论文)百度云请自取

好消息:相关论文word版本已经上传至百度云,请三连后自取哈! 链接: https://pan.baidu.com/s/1k5V7D_PQ_tmb6kAmg-NhVg 密码: kj6u 【MCM】2020C题(总结和论文分享) 前言:QAQ ,数学建模美赛竟然在两个多月的疫情中结束了,美赛的这段时间效率属实高,仿佛是这两个月没有学习一下子迸发出的潜力一...

网络剪枝和共享

十岁的小男孩   本文为终端移植的一个小章节。  目录   背景   结构剪枝   非结构剪枝 背景   网络剪枝和共享用于降低网络复杂度和解决过拟合问题。有一种早期应用的剪枝方法称为偏差权重衰减(Biased Weight Decay),其中最优脑损伤(Optimal Brain Damage)和最优脑手术(Optimal Brain Surgeon)方...

Debug 路漫漫-08:Keras 版本升级函数变换导致的问题

在使用 CNN的时候,报错: TypeError: ('Keyword argument not understood:', 'padding') 将“padding”改为“border_mode”,即可: 原因:padding 是Keras 2.X的语法,而我的PC安装的是 Keras 1.X版本。 二者的API 有一些地方是有变化的。 如下:(从...

CS231N 数据预处理(data proprecessing)

原文链接:https://blog.csdn.net/weixin_38646522/article/details/79534677 一些数据预处理的标准方法有均值化数据和归一化数据。 零中心化的意义在上面已经详细的讲述了,这里就不在细讲。 归一化数据的意义在于让所有的特征都在相同的值域之内,并且让这些特征有相同的贡献。对于图像处理,在大部分情况下会进...

神经机器翻译(NMT)相关资料整理

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 简介 自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展。最近几年相关的论文,开源系统也是层出不穷。本文主要梳理了神经机器翻译入门、进阶所需要阅读的资料和论文,并提供了相关链接以及简单的介绍,以及总...

word2vec 独热编码One-Hot

独热编码 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图: 我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。feature_2 和f...