Wv

Transformer架构记录(三)

Transformer架构记录(二)中提到,整个Encoder-block的结构如下图所示: 本文聚焦上图中的Multi-Head Attention模块,即下图所示: 1. self-Attention self-Attention是理解Multi-Head Attention模块的基础,因此需要理解自注意力机制在Transformer中的具体原理。...