稀疏注意力 | Big Bird: Transformers for Longer Sequences

摘要：

存在内存问题，令牌长度自然也有限制。Bigbird=longformer+randomattention三点：RandomattentionWindowattentionGlobalAttention Bigbir的稀疏注意机制将二次依赖性降低为线性，这解决了BERT模型中完全注意机制导致的序列长度的二次依赖限制，同时考虑了较长的上下文。BigBird主要由三部分组成：全球关注：一组参与序列所有部分的g个全球代币。随机注意：对于每个查询，每个查询将处理r个随机键的集合。窗口注意：本地邻居块w，这样每个节点都可以处理其本地结构。

参考：「芝麻街」Big Bird : Sparse Attention 再填新成员

背景：

原来的注意力机制复杂度高，q需要和每个key点乘，复杂度是n*n。

存在内存问题，自然也就存在token长度限制。

full attention -> small attention ?

big bird = longformer + random attention

三要点：

Random attention

Window attention

Global Attention

三要点

Big Bird的稀疏注意力机制，将二次依赖降至线性，解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制，同时兼顾更长的上下文。Big Bird主要由三个部分组成:

global attention：一组参与序列的所有部分的g全局token（[cls])。
random attention：对于每个查询 $q_i$ ，每个查询将处理的r个随机key的集合。
window attention：一个本地邻居块w，以便每个节点处理其本地结构（attention自己和邻居）。

稀疏注意力 | Big Bird: Transformers for Longer Sequences

相关文章

GitHub：超分辨率最全资料集锦

Java Enum枚举遍历判断四种方式（包括 Lambda 表达式过滤）

canvas 做一个小鸟运动的小游戏 (第二步) 使小鸟飞起来

论文笔记：（2019）GAPNet: Graph Attention based Point Neural Network for Exploiting Local Feature of Point Cloud

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

稀疏注意力 | Big Bird: Transformers for Longer Sequences

相关文章

GitHub：超分辨率最全资料集锦

Java Enum枚举 遍历判断 四种方式（包括 Lambda 表达式过滤）

canvas 做一个小鸟运动的小游戏 (第二步) 使小鸟飞起来

论文笔记：（2019）GAPNet: Graph Attention based Point Neural Network for Exploiting Local Feature of Point Cloud

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

Java Enum枚举遍历判断四种方式（包括 Lambda 表达式过滤）