稀疏注意力 | Big Bird: Transformers for Longer Sequences

摘要:
存在内存问题,令牌长度自然也有限制。Bigbird=longformer+randomattention三点:RandomattentionWindowattentionGlobalAttention Bigbir的稀疏注意机制将二次依赖性降低为线性,这解决了BERT模型中完全注意机制导致的序列长度的二次依赖限制,同时考虑了较长的上下文。BigBird主要由三部分组成:全球关注:一组参与序列所有部分的g个全球代币。随机注意:对于每个查询,每个查询将处理r个随机键的集合。窗口注意:本地邻居块w,这样每个节点都可以处理其本地结构。

参考:「芝麻街」Big Bird : Sparse Attention 再填新成员

背景:

原来的注意力机制复杂度高,q需要和每个key点乘,复杂度是n*n。

存在内存问题,自然也就存在token长度限制。

full attention -> small attention ?

big bird = longformer + random attention

三要点:

Random attention

Window attention

Global Attention

三要点

Big Bird的稀疏注意力机制,将二次依赖降至线性,解决了BERT模型中的全注意力机制带来的序列长度二次依赖限制,同时兼顾更长的上下文。Big Bird主要由三个部分组成:

  • global attention:一组参与序列的所有部分的g全局token([cls])。
  • random attention:对于每个查询[公式],每个查询将处理的r个随机key的集合。
  • window attention:一个本地邻居块w,以便每个节点处理其本地结构(attention自己和邻居)。

免责声明:文章转载自《稀疏注意力 | Big Bird: Transformers for Longer Sequences》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇SpringBoot+Redis集成简单测试Java 中的监控与管理原理概述下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

GitHub:超分辨率最全资料集锦

前言本文将分享的内容是:超分辨率(Super Resolution,SR)最全资料合集,涵盖了SISR、VSR等。在这里插入图片描述一张图看懂超分辨率SR作用注:文末附超分辨率SR微信交流群,欢迎加入学习Awesome-Super-Resolution    项目作者:ChaofWang Star    数量:636 Commit    数量:120htt...

Java Enum枚举 遍历判断 四种方式(包括 Lambda 表达式过滤)

示例代码如下: package com.miracle.luna.lambda; import java.util.Arrays; /** * @Author Miracle Luna * @Date 2019/6/9 23:40 * @Version 1.0 */ public enum AlarmGrade {...

canvas 做一个小鸟运动的小游戏 (第二步) 使小鸟飞起来

//使小鸟飞起来的代码<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Title</title></head><body> <canvas wi...

论文笔记:(2019)GAPNet: Graph Attention based Point Neural Network for Exploiting Local Feature of Point Cloud

目录 摘要 一、引言 二、相关工作 基于体素网格的特征学习 直接从非结构化点云中学习特征 从多视图模型中学习特征 几何深度学习的学习特征 三、GAPNet架构 3.1 GAPLayer 局部结构表示 单头GAPLayer 多头机制 3.2注意力池化层 3.3 GAPNet架构 四、实验 4.1分类 数据集 网络结构 训练细节 结果...