图像质量评估 (IQA) 论文笔记: Convolutional Neural Networks for No-Reference Image Quality Assessment

摘要:
因此,有必要在失真图像中找到特征。此外,CORNIA方法表示,可以从原始图像像素中直接提取特征。事实上,普通CNN的结构不适合IQA,因为CNN旨在提取不变的图像特征,而IQA需要NSS统计特征,而本文中的CNN可以估计补丁的质量。传统的CORNIA方法具有直接从原始图像中学习特征的思想,而较大的归一化窗口将导致性能较差。
图像质量评估 (IQA) 论文笔记: Convolutional Neural Networks for No-Reference Image Quality Assessment

Convolutional Neural Networks for No-Reference Image Quality Assessment

Le Kang1 , Peng Ye1 , Yi Li2 , and David Doermann 1

2014 IEEE Conference on Computer Vision and Pattern Recognition

按照之前看过的一篇综述性文章Deep Convolutional Neural Models for Picture-Quality Prediction: Challenges and Solutions to Data-Driven Image Quality Assessment的说法,本文是第一篇将CNN用于IQA问题的。下面简单看一下作者的思路和模型。

INTRO

FR measures,有参考的图像评估,state of the art 的传统方法:

VIF:

H. R. Sheikh, A. C. Bovik, and G. de Veciana. An information fidelity criterion for image quality assessment using natural scene statistics. IEEE Transactions on Image Processing, 14(12):2117–2128, Dec. 2005.

FSIM:

L. Zhang, D. Zhang, X. Mou, and D. Zhang. FSIM: A feature similarity index for image quality assessment. IEEE Transactions on Image Processing, 20(8):2378–2386, 2011.

已经可以和人类的感知有较好的相关性了。

但是NR没有参考图像,因此需要在畸变了的图像中去找特征。比较成功的就是NSS(自然图景统计量),传统的NSS是在小波或者DCT域里提NSS-based特征,所以比较慢,而CORNIA P. Ye, J. Kumar, L. Kang, and D. Doermann. Unsupervised feature learning framework for no-reference image quality assessment. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1098–1105, 2012. 和 BRISQUE A. Mittal, A. Moorthy, and A. Bovik. No-reference image quality assessment in the spatial domain. IEEE Transactions on Image Processing, 21(12):4695–4708, 2012. 两种方法从空域提取特征,从而使得效率提上来了。而且CORNIA方法说可以直接从原始图像像素中提取特征,不需要手工提取特征。

普通的CNN的结构实际上不适合做IQA问题,因为CNN目的是提取具有不变性的图像特征,而IQA需要的是NSS统计特性,所以需要修改CNN的结构。另外,以前的工作多是对所有的像素点统计,从而估计整体质量,而文章的CNN可以对patch的质量进行估计,从而使得enhancement只在需要的地方进行。

传统方法CORNIA已经有了从原始图像直接学习特征的思路,本文就是受其启发。之前的神经网络做IQA都是用网络学一个回归,而之前的输入还是由手工提取的特征。本文是由图像直接提取特征回归出一个评分。

CNN for NR-IQA

32 × 32 −26 × 26 × 50 − 2 × 50 − 800 − 800 − 1 网络结构如左。先32的patch然后用7×7的kernel卷积,得到26 26 50,然后用一个min pooling和max pooling得到一个min一个max,就变成了2×50,最后过两个全连接,输出。

首先先对图片patch做一个local normalization,如图:


这里写图片描述

文中选的是P=Q=3,这样得到了局部的对比对均衡,而且大的归一化的窗口会导致performance变差,如果做uniform的normalization,那么会降低3%。但是用了局部归一化,说明这个网络相对较少的关心对比度的下降,而是更多关注degradation,如blur,compression,noise等。

网络结构如图:


这里写图片描述

接下来是pooling,这里把每个feature map 池化成为一个min一个max,也是来源于CORNIA。相比于max pooling,加上min pooling可以提高performance大约2%.

激活函数用relu,但是由于用了min pooling,所以在卷积和pooling层不用relu,只在最后的FC层用。

另外,用了dropout,也只在FC层用。最后的目标函数是L1范数。

下面是局部质量估计的结果:


这里写图片描述

2018年04月16日00:33:29

如果我们会死,也要听着音乐死亡。 —— 记者,阿列克谢耶维奇 【我不知道该说什么,关于死亡还是爱情】

免责声明:文章转载自《图像质量评估 (IQA) 论文笔记: Convolutional Neural Networks for No-Reference Image Quality Assessment》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇BZOJ 1915 [Usaco2010 Open]奶牛的跳格子游戏dev GridControl 代码自定义下拉框下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

python+opencv图像投影、水平投影、垂直投影

python+opencv图像投影 一、图像投影 水平投影:以y轴为轴投影 垂直投影:以x轴为轴投影 原图: 二、水平投影 代码及解释: 1 #水平投影 2 import numpy as np 3 import cv2 as cv 4 img=cv.imread("123.jpg",0) 5 ret,img1=cv.threshold(im...

数据结构之线性表(严蔚敏《数据结构》要求)

1、每个代码都是博主一个字一个敲出来的(有参考,但是我很认真的去分析了每个函数逻辑结构,并做了一定的修改)2、函数都已经通过测试,没有bug,符合要求3、这里只贴出代码,代码里有些本人的理解和注释,但是没有那么详细 代码分为 main.c 1 #include <stdio.h> 2 #include "fuction.h" 3 4...

OpenCV 2.4.8组件结构全解析

转自: http://blog.csdn.net/huang9012/article/details/21811271 之前啃了不少OpenCV的官方文档,发现如果了解了一些OpenCV整体的模块架构后,再重点学习自己感兴趣的部分的话,就会有一览众山小的感觉,于是,就决定写出这篇文章,作为启程OpenCV系列博文的第二篇。   至于OpenCV组件结...

Opencv——相机标定

相机标定的目的:获取摄像机的内参和外参矩阵(同时也会得到每一幅标定图像的选择和平移矩阵),内参和外参系数可以对之后相机拍摄的图像就进行矫正,得到畸变相对很小的图像。 相机标定的输入:标定图像上所有内角点的图像坐标,标定板图像上所有内角点的空间三维坐标(一般情况下假定图像位于Z=0平面上)。 相机标定的输出:摄像机的内参、外参系数。 标定流程 1. 准备标定...

分水岭分割

    分水岭分割利用图像形态学进行图像区域分割。它将图像灰度值看作一幅地形图,在地形图的局部极小值处与地形最低点是连通的,从最低点开始注水,水流会逐渐淹没地形较低点构成的区域,直到整个图像被淹没。在这个过程中,通过相关形态学处理,可以实现一幅图像的分水岭分割。     以下GIF图像给出了形象说明:         图像来自 https://www.c...

GDAL源码剖析(九)之GDAL体系架构

       在GDAL库中包含栅格数据的读写,矢量数据的读写,以及栅格和矢量数据的相关算法。下面主要对GDAL中栅格数据和矢量数据的体系架构做一个简单的说明。本人英文很烂,有些部分写出来的东西自己都看不懂,如果不懂,可以看英文。 一、GDAL体系架构       参考GDAL官方文档:http://www.gdal.org/gdal_datamode...