Transformer架构记录（三）

摘要：

Transformer架构记录（二）中提到，整个Encoder-block的结构如下图所示：本文聚焦上图中的Multi-HeadAttention模块，即下图所示：1.self-Attentionself-Attention是理解Multi-HeadAttention模块的基础，因此需要理解自注意力机制在Transformer中的具体原理。

Transformer架构记录（二）中提到，整个Encoder-block的结构如下图所示：

Transformer架构记录（三）第1张

本文聚焦上图中的Multi-Head Attention模块，即下图所示：

Transformer架构记录（三）第2张

1. self-Attention

self-Attention是理解Multi-Head Attention模块的基础，因此需要理解自注意力机制在Transformer中的具体原理。

1.1 Q、K、V计算

对于Transformer架构记录（二）中提到的输入 X (X的行数表示一句话中的Token数目，列数表示每个Token的embedding维数，与词向量维数、位置向量维数一致),将 X 与3个矩阵（WQ、WK、WV）做乘法得到 Q、K、V 3个矩阵；

显然，WQ、WK、WV的行数必需与 X 的列数保持相同（确保矩阵乘法得以实施）；至于WQ、WK、WV的列数，一般要求WQ、WK的列数相同，WV的列数并不强制要求与WQ、WK的列数相同。

WQ、WK、WV作为模型参数，其具体数值可在模型训练过程中得以更新。

Transformer架构记录（三）第3张

1.2 attention计算

在得到的Q、K、V 上施以函数Attention(),具体如下：

Transformer架构记录（三）第4张

即Q乘以K的转置，得到的矩阵QK^T的size为NxN(N为一句话中的Token数目)；
将QK^T的每个元素除以d_k（d_k即前述矩阵Q、K的列数，也是WK、WV的列数）的算术平方根；
对2所得矩阵的每一行进行 Softmax，即使得矩阵每一行的和都变为 1；
对3所得矩阵与先前的矩阵 V 作矩阵乘法，所得矩阵记为 Z, Z的size为（N, d_v） d_v表示矩阵 V 的列数。

可以看到，self-attention利用一组矩阵（WQ、WK、WV），将输入 X（N, E）转换为 Z (N, d_v)，N为一句话中的Token数目，E词向量维数，d_v表示矩阵 V 的列数。

2. Multi-Head Attention

Multi-Head Attention即为输入 X 配置多组（WQ_i、WK_i、WV_i），从而得到多个Z (N, d_vi)，d_vi为对于矩阵 WV_i 的列数，一般设置所有的 WV_i 列数相同。

如下图所示：

Transformer架构记录（三）第5张

得到 8 个输出矩阵 Z1 到 Z8 之后，将它们拼接在一起 (Concat)，再次乘以矩阵（该矩阵的列数与输入 X 的列数相同），得到 Multi-Head Attention 最终的输出 Z。

Transformer架构记录（三）第6张

输出的矩阵 Z 与其输入的矩阵 X 的维度是一样的

上述输出矩阵 Z 对应到“ Transformer架构记录（二）”中的 X_mha .

下期预告：Decoder-block理解

参考资源
链接：https://www.jianshu.com/p/9b87b945151e
《Attention Is All You Need》

免责声明：文章转载自《Transformer架构记录（三）》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

Transformer架构记录（三）

1. self-Attention

1.1 Q、K、V计算

1.2 attention计算

可以看到，self-attention利用一组矩阵（WQ、WK、WV），将输入 X（N, E）转换为 Z (N, d_v)，N为一句话中的Token数目，E词向量维数，d_v表示矩阵 V 的列数。

2. Multi-Head Attention

输出的矩阵 Z 与其输入的矩阵 X 的维度是一样的

下期预告：Decoder-block理解

相关文章

NUMA微架构

神经网络实现

零基础入门深度学习(5)

基于移动最小二乘的图像变形和曲线拟合

混淆矩阵(Confusion matrix)的原理及使用(scikit-learn 和 tensorflow)

openstack 5大组件之间的关系和基本架构思维导图

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表