CVPR2021|一个高效的金字塔切分注意力模块PSA

摘要：

PSA具有即插即用、重量轻、简单高效的特点。该模块与ResNet相结合，通过PSA取代ResNet瓶颈中的3x3卷积，形成EPSANet。PSA的主要操作是将输入传感器从通道分成S组。通过这种方式，PSA整合了不同尺度的上下文信息，并产生了更好的像素级注意力。完整的PSA模块如下图所示。如上图所示，EPSANet将ResNet瓶颈中的3x3卷积替换为PSA，然后堆叠几个这样的模块以形成EPSANet，其中E表示有效。当在MaskRCNN上使用PSA时，目标检测高2.7 boxAP，实例分割高1.7 maskAP。

前言：

前面分享了一篇《继SE,CBAM后的一种新的注意力机制Coordinate Attention》,其出发点在于SE只引入了通道注意力，CBAM的空间注意力只考虑了局部区域的信息，从而提出考虑全局空间信息的注意力机制。

在本文，将介绍另一个基于同样出发点的注意力模块，即Pyramid Split Attention (PSA)。PSA具备即插即用、轻量、简单高效的特点。该模块与ResNet结合，通过PSA替代ResNet的bottleneck中的3x3卷积，组成了EPSANet。

EPSANet用于图像识别，比SENet top-1acc高了1.93%。PSA用在Mask RCNN上，目标检测高了2.7 box AP，实例分割高了1.7 mask AP。

论文：https://arxiv.org/pdf/2105.14447v1.pdf

代码：https://github.com/murufeng/EPSANet

本文出发点

1. SE仅仅考虑了通道注意力，忽略了空间注意力。

2. BAM和CBAM考虑了通道注意力和空间注意力，但仍存在两个最重要的缺点：(1)没有捕获不同尺度的空间信息来丰富特征空间。(2)空间注意力仅仅考虑了局部区域的信息，而无法建立远距离的依赖。

3. 后续出现的PyConv，Res2Net和HS-ResNet都用于解决CBAM的这两个缺点，但计算量太大。

基于以上三点分析，本文提出了Pyramid Split Attention。

PSA

主要操作：将input tensor从通道上分成S组。每一组进行不同卷积核大小的卷积，以获取不同尺度的感受野，提取不同尺度的信息。再通过SE模块，提取每组的通道的加权值，最后对S组的加权值进行softmax归一化并加权。

具体将input tensor分成S组，并对每组进行不同卷积的SPC模块如下图所示。

CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

SPC先将input tensor分成S组，每组的卷积核大小依次增大，如k=3,5,7,9。考虑到当卷积核比较大时，计算量也大，因此，对每一组再进行分组卷积，具体分组数量G = exp(2,(k-1)/2)，即2的(k-1)/2次幂。当K = 3,5,7,9时，G=1，2，3，4。

在经过不同大小的卷积后，在通道上拼接。

经过SPC模块后，PSA再将SPC模块的输出通过SE Weight Module获得通道注意力值，这样做的目的是获得不同尺度特征图的注意力权值。

通过这样的做法，PSA融合了不同尺度的上下文信息，并产生了更好的像素级注意力。

最后将每组通道注意力权值拼接，进行softmax归一化，对SPC模块的输出进行加权。

完整的PSA模块如下图所示。

CVPR2021|一个高效的金字塔切分注意力模块PSA第3张

CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

这里补充一下pyramid split attention中的pyramid。在《特征金字塔技术总结》中介绍了特征金字塔的两种构建方式，其中一种就是通过不同大小卷积核的卷积来构建特征金字塔。因此，这里PSA中的Pyramid是由SPC模块中的每组不同大小卷积核的卷积所构建。

EPSANet

CVPR2021|一个高效的金字塔切分注意力模块PSA第5张 CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

如上图所示，将PSA替代ResNet的bottleneck中的3x3卷积，再堆叠几个这样的模块就构成了EPSANet，这里的E，指的是efficient。

网络设计如下图所示。

CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

Conclusion

EPSANet用于图像识别，比SENet top-1acc高了1.93%。PSA用在Mask RCNN上，目标检测高了2.7 box AP，实例分割高了1.7 mask AP。

以ResNet-50和ResNet-101为backbone，加入各种注意力模块的图像识别效果对比

CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

在公众号中回复关键字 “技术总结” 可获取以下文章的汇总pdf。

CVPR2021|一个高效的金字塔切分注意力模块PSA第13张 CVPR2021|一个高效的金字塔切分注意力模块PSA第2张

其它文章

计算机视觉专业术语总结(一)构建计算机视觉的知识体系

欠拟合与过拟合技术总结

归一化方法总结

论文创新的常见思路总结

CV方向的高效阅读英文文献方法总结

计算机视觉中的小样本学习综述

知识蒸馏的简要概述

优化OpenCV视频的读取速度

损失函数技术总结

注意力机制技术总结

特征金字塔技术总结

池化技术总结

数据增强方法总结

CNN结构演变总结（一）经典模型

CNN结构演变总结（二）轻量化模型

CNN结构演变总结（三）设计原则

如何看待计算机视觉未来的走向

CNN可视化技术总结（一）-特征图可视化

CNN可视化技术总结（二）-卷积核可视化

CNN可视化技术总结（三）-类可视化

CNN可视化技术总结（四）-可视化工具与项目

免责声明：文章转载自《CVPR2021|一个高效的金字塔切分注意力模块PSA》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

上篇Samba 简介Win7 ODBC驱动 Excel (转)下篇

宿迁高防，2C2G15M，22元/月；香港BGP，2C5G5M，25元/月雨云优惠码：MjYwNzM=

相关文章

论文笔记：（2021CVPR）PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds

目录摘要 1、引言 2、相关工作将点云映射到常规二维或三维栅格（体素）基于MLPs的点表示学习基于点卷积的点表示学习动态卷积和条件卷积 3、方法 3.1 回顾 3.2 动态内核组装 Weight Bank ScoreNet. Kernel generation 3.3 权重正则化 3.4 与前期工作的关系 4、骨干网体系结...

网络剪枝和共享

十岁的小男孩　　本文为终端移植的一个小章节。目录　　背景　　结构剪枝　　非结构剪枝背景　　网络剪枝和共享用于降低网络复杂度和解决过拟合问题。有一种早期应用的剪枝方法称为偏差权重衰减（Biased Weight Decay），其中最优脑损伤（Optimal Brain Damage）和最优脑手术（Optimal Brain Surgeon）方...

3层-CNN卷积神经网络预测MNIST数字

3层-CNN卷积神经网络预测MNIST数字本文创建一个简单的三层卷积网络来预测 MNIST 数字。这个深层网络由两个带有 ReLU 和 maxpool 的卷积层以及两个全连接层组成。 MNIST 由 60000 个手写体数字的图片组成。本文的目标是高精度地识别这些数字。具体实现过程导入 tensorflow、matplotlib、random 和 n...

【转】VGG网络结构及参数

VGG网络 VGG16输入224*224*3的图片，经过的卷积核大小为3x3x3，stride=1，padding=1，pooling为采用2x2的max pooling方式： 1、输入224x224x3的图片，经过64个卷积核的两次卷积后，采用一次pooling。经过第一次卷积后，c1有（3x3x3）个可训练参数 2、之后又经过两次128的卷积核卷积...

快卷积（批处理运算）

常用于连续接收的信号（语音信号等），将这个序列可当做无限长序列、大的DFT会有不可接受的大延迟。因此必须将这个无限长的序列分割为比较小的部分。利用DFT处理每一段最后整合。由上一节可知：当响应为M点，输入为N点时（M<N），取N = N做循环卷积事，会有（M-1）个的重叠为啦实现块卷积我们可以如此来分块： x（n）=（n+1） 0<...

论文阅读笔记（六十九）【CVPR2021】：BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification

Introduction 在空间维度上，现有video reid方法局限于把所有帧在相同分辨率下进行特征提取，造成了特征冗余，如图(a)。在时间维度上，现有方法要么采用long-term要么采用short-term，也有一些方法同时考虑了两者，却赋予两者相同的权重来融合。但如图(b)所示，当存在遮挡情况时，需要long-term来提供更多信息，当存在快...

最新文章

随机推荐