两篇论文之CNN中正交操作

摘要:
CNN权重和特征的正交性在一定程度上与特征表达的差异有关。在接下来的两篇论文中,一篇是在训练中向权重添加正交规则性以提高训练稳定性,另一篇是向特征添加正交性以抑制过度拟合。提出DeCovLoss的贡献是增强特征的非相关性,提高模型的泛化性能,讨论特征的相关性和泛化性能之间的关系,并使用特征协方差矩阵C的Frobenius范数作为指标。当特征完全不相关时,协方差矩阵C是对角矩阵。

  CNN的权值正交性和特征正交性,在一定程度上是和特征表达的差异性存在一定联系的。

  下面两篇论文,一篇是在训练中对权值添加正交正则提高训练稳定性,一篇是对特征添加正交性的损失抑制过拟合。

第一篇:Orthonormality Regularization

Xie D, Xiong J, Pu S. All You Need is Beyond a Good Init: Exploring Better Solution for Training Extremely Deep Convolutional Neural Networks with Orthonormality and Modulation[J]. 2017.

contributions

作者针对较深较宽网络训练困难(梯度弥散和爆炸),信号在网络传输不够稳定,提出了两点:

1.强调Conv+BN+ReLU这种module在训练中的必要性

2.提出一种权值的(Orthonormality Regularization)正交正则

另附BN层作用

BN能保证输入和输出的分布一致,从而避免出现梯度弥散和梯度爆炸的情况。

使用公式说明:

两篇论文之CNN中正交操作第1张

当w的N次方过小或者过大时,会出现对应的梯度弥散和梯度爆炸。
而经过BN处理后,会生成均值为0,方差为1的高斯分布(假设输入是高斯分布),从而解决了w的尺度所带来的问题。

Orthonormality Regularization

  y = WTx,如果||y|| = ||x||,则我们称这种线性变化是保范的,等价条件是W属于正交矩阵,如下式推导:

两篇论文之CNN中正交操作第2张

  即可计算出正交正则,用于替代SGD中的L2 正则:

两篇论文之CNN中正交操作第3张

experiments

采用44层的残差网络在CIFAR-10数据集上进行训练和测试。两组实验进行对比:
1. 正交初始化+正交正则
2. msra初始化+L2正则

权值非相关性变化过程:
计算网络中各同层卷积核之间的相似度的平均值,作为网络的权值相关系数

 两篇论文之CNN中正交操作第4张

两篇论文之CNN中正交操作第5张

最终性能结果:

两篇论文之CNN中正交操作第6张

第二篇:DeCov Loss

 Cogswell M, Ahmed F, Girshick R, et al. Reducing Overfitting in Deep Networks by Decorrelating Representations[J]. Computer Science, 2015.

a conference paper at ICLR 2016

   作者发现特征相关性较大时,特征差异小,模型泛化较差。而常用的增强泛化的方法是,提高样本多样性和dropout。

contributions

  提出DeCov Loss增强特征的非相关性,提高模型泛化性能

特征相关性和泛化性能关系的讨论

  特征相关性,使用特征的协方差矩阵C的Frobenius范数作为指标。 用以下指标描述第i个和第j个激活值的相关性。值越大,相关性越大。

两篇论文之CNN中正交操作第7张

  泛化性能,使用训练准确率和验证准确率的差值作为指标,差值越小说明泛化越好。

 两篇论文之CNN中正交操作第8张

Decov Loss

矩阵的C的Frobenius范数:

两篇论文之CNN中正交操作第9张

 协方差:

反应两组随机变量的相关性,相关系数如下,其中 ,等于0即为完全非相关,等于1为完全相关。

两篇论文之CNN中正交操作第10张

当特征完全非相关的理想情况下,协方差矩阵C是一个对角阵。便有了以下的loss:

两篇论文之CNN中正交操作第11张

对应的梯度计算是:

  两篇论文之CNN中正交操作第12张

experiments

使用NIN网络,DeCov作用于avg pool层,DeCov Loss和dropout搭配使用泛化性能更好

 两篇论文之CNN中正交操作第13张

免责声明:文章转载自《两篇论文之CNN中正交操作》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇[转载]OpenSSL身份认证 RSA、ECC、SM2交换函数下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Wasserstein GAN

  WGAN论文指出,原始GAN以JS、KL散度作为损失容易导致生成器梯度消失,他们提出了一种新的损失函数——Wasserstein 距离,很大程度上解决了GAN训练难的问题。 原始GAN的损失函数的缺陷   当两个分布之间重叠很小,或者说,两个分布的概率密度同时大于0的区域在整个分布的占比几乎为0时(无穷小,但还不是0),随着分布之间的靠拢,用于衡量分布...

【深度学习】常用优化器总结

在训练模型时,我们可以基于梯度使用不同的优化器(optimizer,或者称为“优化算法”)来最小化损失函数。这篇文章对常用的优化器进行了总结。 BGD BGD 的全称是 Batch Gradient Descent,中文名称是批量梯度下降。顾名思义,BGD 根据整个训练集计算梯度进行梯度下降 [ heta = heta - etaDelta_{ heta...

HOG 特征提取算法(原理篇)

在计算机视觉中人们设计了很多算法来提取空间特征,并利用图像梯度信息来识别物体。 其中一种技术叫做 HOG,也即方向梯度直方图(Histogram of Oriented Gradient)。方向梯度直方图听着太高深了,我们先来讲一下这些术语。 直方图就是数据分布的一种图形表现,看起来有点像柱形图,其柱形有不同的高度,每个柱形代表一组处于一定值范围的数据...

ggplot2 配色渐变 二色/三色梯度

scale_colour_gradient()和scale_fill_gradient():指定双色梯度。顺序由低到高。 双色梯度low和high控制梯度两颜色。 例: ggplot() + geom_point(data = mtcars, aes(x = mpg, y = disp, color = qse...

计算流体模拟理论2

二维的NS-方程:   这个方程一定要拆分成部分才能解出来。 这里面我感觉只要把泊松方程解法搞定,基本快出山写最简单的 "计算流体" 完全没问题 以下是做了个初始的source field,用python numpy 先快速撸了一遍算法。 并且重新实现3d版本在Houdini中,houdini有更好的可视化. velocity advection 是RK...

Python——彩图变线稿

思路: 1、用灰度变化来模拟视觉的明暗程度; 2、把彩图转为灰度数组; 3、求出梯度数组,即灰度变化率数组; 4、预设灰度值10,范围0-100,衰减到10%,这将对灰度变化率按作衰减; 5、令z变化率为1,对x、y、z的作归一化处理; 6、定义一个光源,附视角接近90度,方位角45度; 7、令对角线长度为单位1,分别计算光源在x、y、z轴的投影值; 8、...