论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID

摘要：

引言是HA-CNN的改进版本。在下图中，我们可以发现，当正样本对之间的距离小于负样本对之间距离时，仍然存在一个损失值，这进一步放大了两者之间的距离，实现了预先设置余量的功能。同时，固定保证金使以下两种情况的损失为零，无法评估保证金内的情况。

Introduction

对HA-CNN的改进版。

Methods

(1) 训练策略：

① Weighted triplet loss with Soft margin：

最初的triplet loss为：

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第1张

Batch-hard triplet loss选择了难样本对进行损失计算：

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第2张

batch-hard的缺点是：对异常样本敏感，硬选择策略可能会丢失重要信息。

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第3张

对这个公式的权重，我的理解是：对正样本对，越不相似的权重越大；对负样本对，越相似的权重越大。也就是难样本的权重更大。

作者提出的新三元组损失，其中论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第4张：

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第5张

下图可以发现，当正样本对距离已经小于负样本对距离时，依然存在损失值，让两者的间距进一步拉大，达到了之前设置margin的作用。

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第6张

同时，margin的固定使得下面的(a)(b)两种情况的损失均为0，无法评估margin范围内情况。而作者提出的方法(c)克服了这个问题，即使已经满足了正样本对距离<负样本对距离，其距离差异依然能进一步拉大。

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第7张

② L2 normalization：

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第8张

③ SWAG：

SWA (Stochastic weight averaging)：在优化的末期取k个优化轨迹上的checkpoints，平均他们的权重，得到最终的网络权重，这样就会使得最终的权重位于flat曲面更中心的位置【参考，代码】

SWAG (SWA-Gaussian)：使用SWA解作为一阶矩拟合高斯函数，并且从SGD迭代获得低秩加对角协方差，从而在神经网络权重上形成近似后验分布(知识盲区)；

学习率上采用余弦退火学习率(cosine annealing learning rate)：一种周期性学习率【参考】

④ 其它训练技巧：

随机擦除(Random Erasing Augmentation, REA)、Warmup.

(2) 模型优化：

① Shuffle blocks：

将输入的特征按通道划分为两部分输入两个分支中，级联后进行channel shuffle

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第9张

关于channel shuffle的直观理解：

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第10张

② Generalized Mean (GeM):

在HACNN中，全连接层之前采用了GAP，然而如果用GMP替换，有时带来提升有时带来下降。作者提出了GeM池化，对任意特征图的计算为：

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第11张

③ 网络架构：

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第12张

Experimental Results

(1) 实验细节：

图像尺寸：160x64；

优化器：SGD+Warmup(350 epochs) / SWAG(15 cycles of 35 epochs = 525 epochs);

batch: 8 ID x 4 images = 32。

(2) 实验结果：

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID第13张

论文阅读笔记（七十二）【ICMR2020】：Compact Network Training for Person ReID

相关文章

Dubbo的高可用机制

论文笔记：（2021CVPR）PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds

《python深度学习》笔记---3.1、神经网络剖析

RNN学习笔记

零基础入门深度学习(5)

多级目录树（森林）的三种数据库存储结构介绍

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表