CVPR2021|一个高效的金字塔切分注意力模块PSA

摘要:
PSA具有即插即用、重量轻、简单高效的特点。该模块与ResNet相结合,通过PSA取代ResNet瓶颈中的3x3卷积,形成EPSANet。PSA的主要操作是将输入传感器从通道分成S组。通过这种方式,PSA整合了不同尺度的上下文信息,并产生了更好的像素级注意力。完整的PSA模块如下图所示。如上图所示,EPSANet将ResNet瓶颈中的3x3卷积替换为PSA,然后堆叠几个这样的模块以形成EPSANet,其中E表示有效。当在MaskRCNN上使用PSA时,目标检测高2.7 boxAP,实例分割高1.7 maskAP。

 前言:

前面分享了一篇《继SE,CBAM后的一种新的注意力机制Coordinate Attention》,其出发点在于SE只引入了通道注意力,CBAM的空间注意力只考虑了局部区域的信息,从而提出考虑全局空间信息的注意力机制。

在本文,将介绍另一个基于同样出发点的注意力模块,即Pyramid Split Attention (PSA)。PSA具备即插即用、轻量、简单高效的特点。该模块与ResNet结合,通过PSA替代ResNet的bottleneck中的3x3卷积,组成了EPSANet。

EPSANet用于图像识别,比SENet top-1acc高了1.93%。PSA用在Mask RCNN上,目标检测高了2.7 box AP,实例分割高了1.7 mask AP。

论文:https://arxiv.org/pdf/2105.14447v1.pdf

代码:https://github.com/murufeng/EPSANet

本文出发点

1. SE仅仅考虑了通道注意力,忽略了空间注意力。

2. BAM和CBAM考虑了通道注意力和空间注意力,但仍存在两个最重要的缺点:(1)没有捕获不同尺度的空间信息来丰富特征空间。(2)空间注意力仅仅考虑了局部区域的信息,而无法建立远距离的依赖。

3. 后续出现的PyConv,Res2Net和HS-ResNet都用于解决CBAM的这两个缺点,但计算量太大。

基于以上三点分析,本文提出了Pyramid Split Attention。

PSA

主要操作:将input tensor从通道上分成S组。每一组进行不同卷积核大小的卷积,以获取不同尺度的感受野,提取不同尺度的信息。再通过SE模块,提取每组的通道的加权值,最后对S组的加权值进行softmax归一化并加权。

具体将input tensor分成S组,并对每组进行不同卷积的SPC模块如下图所示。

图片CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

SPC先将input tensor分成S组,每组的卷积核大小依次增大,如k=3,5,7,9。考虑到当卷积核比较大时,计算量也大,因此,对每一组再进行分组卷积,具体分组数量G = exp(2,(k-1)/2),即2的(k-1)/2次幂。当K = 3,5,7,9时,G=1,2,3,4。

在经过不同大小的卷积后,在通道上拼接。

经过SPC模块后,PSA再将SPC模块的输出通过SE Weight Module获得通道注意力值,这样做的目的是获得不同尺度特征图的注意力权值。

通过这样的做法,PSA融合了不同尺度的上下文信息,并产生了更好的像素级注意力。

最后将每组通道注意力权值拼接,进行softmax归一化,对SPC模块的输出进行加权。

完整的PSA模块如下图所示。

CVPR2021|一个高效的金字塔切分注意力模块PSA第3张

CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

这里补充一下pyramid split attention中的pyramid。在《特征金字塔技术总结》中介绍了特征金字塔的两种构建方式,其中一种就是通过不同大小卷积核的卷积来构建特征金字塔。因此,这里PSA中的Pyramid是由SPC模块中的每组不同大小卷积核的卷积所构建。

EPSANet

CVPR2021|一个高效的金字塔切分注意力模块PSA第5张CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

如上图所示,将PSA替代ResNet的bottleneck中的3x3卷积,再堆叠几个这样的模块就构成了EPSANet,这里的E,指的是efficient。

网络设计如下图所示。

图片CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

Conclusion

EPSANet用于图像识别,比SENet top-1acc高了1.93%。PSA用在Mask RCNN上,目标检测高了2.7 box AP,实例分割高了1.7 mask AP。

以ResNet-50和ResNet-101为backbone,加入各种注意力模块的图像识别效果对比

图片CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

图片CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

在公众号中回复关键字 “技术总结” 可获取以下文章的汇总pdf。

CVPR2021|一个高效的金字塔切分注意力模块PSA第13张CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

其它文章

计算机视觉专业术语总结(一)构建计算机视觉的知识体系

欠拟合与过拟合技术总结

归一化方法总结

论文创新的常见思路总结

CV方向的高效阅读英文文献方法总结

计算机视觉中的小样本学习综述   

知识蒸馏的简要概述   

优化OpenCV视频的读取速度

NMS总结   

损失函数技术总结

注意力机制技术总结   

特征金字塔技术总结   

池化技术总结

数据增强方法总结   

CNN结构演变总结(一)经典模型

CNN结构演变总结(二)轻量化模型 

CNN结构演变总结(三)设计原则

如何看待计算机视觉未来的走向   

CNN可视化技术总结(一)-特征图可视化

CNN可视化技术总结(二)-卷积核可视化

CNN可视化技术总结(三)-类可视化

CNN可视化技术总结(四)-可视化工具与项目

免责声明:文章转载自《CVPR2021|一个高效的金字塔切分注意力模块PSA》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Samba 简介Win7 ODBC驱动 Excel (转)下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

论文笔记:(2021CVPR)PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds

目录 摘要 1、引言 2、相关工作 将点云映射到常规二维或三维栅格(体素) 基于MLPs的点表示学习 基于点卷积的点表示学习 动态卷积和条件卷积 3、方法 3.1 回顾 3.2 动态内核组装 Weight Bank ScoreNet. Kernel generation 3.3 权重正则化 3.4 与前期工作的关系 4、骨干网体系结...

网络剪枝和共享

十岁的小男孩   本文为终端移植的一个小章节。  目录   背景   结构剪枝   非结构剪枝 背景   网络剪枝和共享用于降低网络复杂度和解决过拟合问题。有一种早期应用的剪枝方法称为偏差权重衰减(Biased Weight Decay),其中最优脑损伤(Optimal Brain Damage)和最优脑手术(Optimal Brain Surgeon)方...

3层-CNN卷积神经网络预测MNIST数字

3层-CNN卷积神经网络预测MNIST数字 本文创建一个简单的三层卷积网络来预测 MNIST 数字。这个深层网络由两个带有 ReLU 和 maxpool 的卷积层以及两个全连接层组成。 MNIST 由 60000 个手写体数字的图片组成。本文的目标是高精度地识别这些数字。 具体实现过程 导入 tensorflow、matplotlib、random 和 n...

【转】VGG网络结构及参数

VGG网络 VGG16输入224*224*3的图片,经过的卷积核大小为3x3x3,stride=1,padding=1,pooling为采用2x2的max pooling方式: 1、输入224x224x3的图片,经过64个卷积核的两次卷积后,采用一次pooling。经过第一次卷积后,c1有(3x3x3)个可训练参数 2、之后又经过两次128的卷积核卷积...

快卷积 (批处理运算)

常用于连续接收的信号(语音信号等) ,将这个序列可当做无限长序列、大的DFT会有不可接受的大延迟。因此必须将这个无限长的序列分割为比较小的部分。利用DFT处理每一段最后整合。 由上一节可知:当响应为M点,输入为N点时(M<N),取N = N做循环卷积事,会有(M-1)个的重叠 为啦实现块卷积我们可以如此来分块: x(n)=(n+1)    0<...

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification

Introduction 在空间维度上,现有video reid方法局限于把所有帧在相同分辨率下进行特征提取,造成了特征冗余,如图(a)。 在时间维度上,现有方法要么采用long-term要么采用short-term,也有一些方法同时考虑了两者,却赋予两者相同的权重来融合。但如图(b)所示,当存在遮挡情况时,需要long-term来提供更多信息,当存在快...