两篇论文之CNN中正交操作

摘要：

CNN权重和特征的正交性在一定程度上与特征表达的差异有关。在接下来的两篇论文中，一篇是在训练中向权重添加正交规则性以提高训练稳定性，另一篇是向特征添加正交性以抑制过度拟合。提出DeCovLoss的贡献是增强特征的非相关性，提高模型的泛化性能，讨论特征的相关性和泛化性能之间的关系，并使用特征协方差矩阵C的Frobenius范数作为指标。当特征完全不相关时，协方差矩阵C是对角矩阵。

　　CNN的权值正交性和特征正交性，在一定程度上是和特征表达的差异性存在一定联系的。

　　下面两篇论文，一篇是在训练中对权值添加正交正则提高训练稳定性，一篇是对特征添加正交性的损失抑制过拟合。

第一篇：Orthonormality Regularization

Xie D, Xiong J, Pu S. All You Need is Beyond a Good Init: Exploring Better Solution for Training Extremely Deep Convolutional Neural Networks with Orthonormality and Modulation[J]. 2017.

contributions

作者针对较深较宽网络训练困难（梯度弥散和爆炸），信号在网络传输不够稳定，提出了两点：

1.强调Conv+BN+ReLU这种module在训练中的必要性

2.提出一种权值的（Orthonormality Regularization）正交正则

另附BN层作用

BN能保证输入和输出的分布一致，从而避免出现梯度弥散和梯度爆炸的情况。

使用公式说明：

两篇论文之CNN中正交操作第1张

当w的N次方过小或者过大时，会出现对应的梯度弥散和梯度爆炸。
而经过BN处理后，会生成均值为0，方差为1的高斯分布（假设输入是高斯分布），从而解决了w的尺度所带来的问题。

Orthonormality Regularization

　　y = WTx，如果||y|| = ||x||，则我们称这种线性变化是保范的，等价条件是W属于正交矩阵，如下式推导：

两篇论文之CNN中正交操作第2张

　　即可计算出正交正则，用于替代SGD中的L2 正则：

两篇论文之CNN中正交操作第3张

experiments

采用44层的残差网络在CIFAR-10数据集上进行训练和测试。两组实验进行对比：
1. 正交初始化+正交正则
2. msra初始化+L2正则

权值非相关性变化过程:
计算网络中各同层卷积核之间的相似度的平均值，作为网络的权值相关系数

两篇论文之CNN中正交操作第4张

两篇论文之CNN中正交操作第5张

最终性能结果：

两篇论文之CNN中正交操作第6张

第二篇：DeCov Loss

Cogswell M, Ahmed F, Girshick R, et al. Reducing Overfitting in Deep Networks by Decorrelating Representations[J]. Computer Science, 2015.

a conference paper at ICLR 2016

　　　作者发现特征相关性较大时，特征差异小，模型泛化较差。而常用的增强泛化的方法是，提高样本多样性和dropout。

contributions

　　提出DeCov Loss增强特征的非相关性，提高模型泛化性能

特征相关性和泛化性能关系的讨论

　　特征相关性，使用特征的协方差矩阵C的Frobenius范数作为指标。用以下指标描述第i个和第j个激活值的相关性。值越大，相关性越大。

两篇论文之CNN中正交操作第7张

　　泛化性能，使用训练准确率和验证准确率的差值作为指标，差值越小说明泛化越好。

两篇论文之CNN中正交操作第8张

Decov Loss

矩阵的C的Frobenius范数：

两篇论文之CNN中正交操作第9张

协方差：

反应两组随机变量的相关性，相关系数如下，其中，等于0即为完全非相关，等于1为完全相关。

两篇论文之CNN中正交操作第10张

当特征完全非相关的理想情况下，协方差矩阵C是一个对角阵。便有了以下的loss：

两篇论文之CNN中正交操作第11张

对应的梯度计算是：

　　两篇论文之CNN中正交操作第12张

experiments

使用NIN网络，DeCov作用于avg pool层，DeCov Loss和dropout搭配使用泛化性能更好

两篇论文之CNN中正交操作第13张

免责声明：文章转载自《两篇论文之CNN中正交操作》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

两篇论文之CNN中正交操作

第一篇：Orthonormality Regularization

contributions

另附BN层作用

Orthonormality Regularization

experiments

第二篇：DeCov Loss

contributions

特征相关性和泛化性能关系的讨论

Decov Loss

experiments

相关文章

Wasserstein GAN

【深度学习】常用优化器总结

HOG 特征提取算法（原理篇）

ggplot2 配色渐变二色/三色梯度

计算流体模拟理论2

Python——彩图变线稿

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

两篇论文之CNN中正交操作

第一篇：Orthonormality Regularization

contributions

另附BN层作用

Orthonormality Regularization

experiments

第二篇：DeCov Loss

contributions

特征相关性和泛化性能关系的讨论

Decov Loss

experiments

相关文章

Wasserstein GAN

【深度学习】常用优化器总结

HOG 特征提取算法（原理篇）

ggplot2 配色渐变 二色/三色梯度

计算流体模拟理论2

Python——彩图变线稿

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

ggplot2 配色渐变二色/三色梯度