论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification

摘要:
作者提出了一种双边复杂网络来提取不同帧中的互补空间特征。它包括两个分支:DetailBranch从原始分辨率中提取空间特征,ContextBranch从下采样图像中提取长期特征。随后,将几个平行的空间注意力模块添加到每个分支,以增强局部注意力区域的多样性。此外,作者提出了TemporalKernelSelection模块来动态测量短期和长期之间的时间相关性。在时间维度上,小内核和大内核同时用于捕获时序关联。TKS根据全球信息选择一个主要的临时尺度。BiCnet和TKS被合并并命名为BiCnet TKS。

Introduction

在空间维度上,现有video reid方法局限于把所有帧在相同分辨率下进行特征提取,造成了特征冗余,如图(a)。

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第1张

在时间维度上,现有方法要么采用long-term要么采用short-term,也有一些方法同时考虑了两者,却赋予两者相同的权重来融合。但如图(b)所示,当存在遮挡情况时,需要long-term来提供更多信息,当存在快速移动情况时,需要short-term来提取动作模式等。因此需要动态地捕获short-term和long-term的特征。

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第2张

作者提出了Bilateral Complementary Network (BiCnet)来提取不同帧中的互补空间特征。其包含了两个分支,Detail Branch对原分辨率进行空间特征提取,Context Branch对下采样图像进行long-term特征提取。之后在每个分支上增加了多个parallel spatial attention模块,来增强局部注意区域的多样性。最后将两个分支的互补信息进行融合。

此外作者提出了Temporal Kernel Selection (TKS)模块来动态度量short-term和long-term的时序关联。在时间维度上,同时使用小的kernel和大的kernel来捕获时序关联。并且TKS依据全局信息选择了一个dominant temporal scale (主导时序尺度)。将BiCnet和TKS结合,命名为BiCnet-TKS。

Proposed Method

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第3张

(1) Bilateral Complementary Network:

① Two-branch Architecture:

假设输入的视频序列为论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第4张,划分为论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第5张论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第6张(B表示Big;S表示small,分辨率是B的一半),分别输入到两个分支中,即:

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第7张

最终将两个特征求平均值。

② Cross-Scale Paths:

在两个分支间设计了Cross-Scale Paths(CSP)将Detail分支的信息传播到Context分支中。假设两个分支的中间特征图为论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第8张论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第9张。由于两者的结构不同,需要改变前者的特征图维度,即:

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第10张

其中论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第11张为最大池化,*为卷积,论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第12张为reshape操作使得维度从论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第13张转为论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第14张。特征图维度一致后将两者进行相加融合。

③ Diverse Attentions Operation:

每个分支都嵌入了DAO模块来增强注意力的多样性。对第一帧进行全局平均池化和softmax,获取权重图论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第15张,而后续帧的权重图计算为:通过卷积层压缩通道为1,空间维度reshape为HW维,在、通过全连接层映射,再重新回复到HxW维,最后进行softmax得到权重。为了训练不同帧关注不同区域,设计了divergence regularization term,即:

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第16张

作者采用了dot-product相似度(余弦相似度),上述的公式表示两个区域的区别度(越大越好),因此下面divergence loss越小越好:

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第17张

(2) Temporal Kernel Selection Block:

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第18张

TKS对一个特征图序列论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第19张进行处理,分为三个步骤:分割、选择、激励。

① Partition Operation:

由于不同帧的行人图像存在不对齐现象,因此采用分块策略,把每帧分为hxw个空间块,再对每个块采用平均池化,得到region-level的特征图论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第20张

② Select Operation:

 采用K个分支,每个分支采用不同卷积核尺寸的1D空洞卷积,将K个分支的输出相加,再进行全局平均池化,得到全局特征,即:

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第21张

对全局特征进行K个投影,再进行正则化,即:

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第22张

最后将K个分支的权重进行加权求和,即:

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第23张

其中论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第24张是reshape。

③ Excite Operation:

基于残差的思想,最终的特征图可以计算为:论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第25张论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第26张,其中论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第27张为最邻近上采样。TKS保持了原始特征图尺寸,因此可以插入网络任何阶段。

(3) Overall Architecture:

作者采用预训练的ResNet-50作为骨干网络,DAO插入在第三个stage后,而TKS可以插入在任何阶段。两个分支共享权重以降低参数量。

Experiment

论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification第28张

免责声明:文章转载自《论文阅读笔记(六十九)【CVPR2021】:BiCnet-TKS: Learning Efficient Spatial-Temporal Representation for Video Person Re-Identification》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Apache Solr初体验四Windows server 创建FTP 包括ftp的账号密码设置下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

比较语义分割的几种结构:FCN,UNET,SegNet,PSPNet和Deeplab

简介 语义分割:给图像的每个像素点标注类别。通常认为这个类别与邻近像素类别有关,同时也和这个像素点归属的整体类别有关。利用图像分类的网络结构,可以利用不同层次的特征向量来满足判定需求。现有算法的主要区别是如何提高这些向量的分辨率,以及如何组合这些向量。 几种结构 全卷积网络FCN:上采样提高分割精度,不同特征向量相加。[3] UNET:拼接特征向量;编码...

神经网络+增强学习

该文章转至:https://www.cnblogs.com/xlturing/p/5844555.html 马里奥AI实现方式探索 ——神经网络+增强学习 儿时我们都曾有过一个经典游戏的体验,就是马里奥(顶蘑菇^v^),这次里约奥运会闭幕式,日本作为2020年东京奥运会的东道主,安倍最后也已经典的马里奥形象出现。平时我们都是人来玩马里奥游戏,能否可以让马里...

机器视觉与边缘计算:听课笔记

OpenVINO工具强大,使用有一定难度,需要一定基础:Python、机器学习基本算法等  云计算 与 边缘计算 边缘计算起源于传媒领域,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。 其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。 边...

图像检索(image retrieval)- 8

PARTICULAR OBJECT RETRIEVAL WITH INTEGRAL MAX-POOLING OF CNN ACTIVATIONS ABSTRACT 最近,建立在卷积神经网络(CNN)上的图像表征已经被证明可以为图像搜索提供有效的描述符,其性能优于作为短向量表征的前CNN特征。然而,这种模型与几何感知重排序方法并不兼容,在某些特定对象检索基...

基于MATLAB的Sobel边缘检测算法实现

图像边缘就是图像灰度值突变的地方,也就是图像在该部分的像素值变化速度非常之快,就比如在坐标轴上一条曲线有刚开始的平滑突然来个大转弯,在变化出的导数非常大。 Sobel算子主要用作边缘检测,它是一离散型差分算子,用来计算图像亮度函数灰度之近似值。 边缘是指其周围像素灰度急剧变化的那些像素的集合。边缘存在于目标、背景和区域之间,所以,边缘是图像分割所依赖的最重...

微软RDLC报表打印

  关于微软RDLC报表打印时文字拉伸问题(Windows server 2003 sp2) 最近我们开发的打印服务频频出现打印文字拉伸问题,客户意见络绎不绝,最为明显的是使用黑体加粗后 “2.0份” 打印出来后小数点几乎看不见了,用户很容易误认为 “ 20份” 。所以问题达到了不得不停下手上的工作,集中研究RDLC打印问题。 下面是打印出来的效果 由于...