ORB 特征提取算法(理论篇)

摘要:
ORB首先会从图像中查找特殊区域,称为关键点。然后ORB会为每个关键点计算相应的特征向量。FAST算法ORB特征检测的第一步是查找图像中的关键点,而关键点检测算法即使用FAST算法。ORB算法的第二步是将第一个算法发现的关键点变成特征向量,这些特征向量可以共同表示一个对象。BRIEF是BinaryRobustIndependentElementaryFeatures的简称,它的作用是根据一组关键点创建二元特征向量。BRIEF算法首先利用高斯核对给定图像进行平滑处理,以防描述符对高频噪点过于敏感。

Abstract

ORB 是 Oriented Fast and Rotated Brief 的简称,可以用来对图像中的关键点快速创建特征向量,这些特征向量可以用来识别图像中的对象。
其中,Fast 和 Brief 分别是特征检测算法和向量创建算法。ORB 首先会从图像中查找特殊区域,称为关键点。关键点即图像中突出的小区域,比如角点,比如它们具有像素值急剧的从浅色变为深色的特征。然后 ORB 会为每个关键点计算相应的特征向量。ORB 算法创建的特征向量只包含 1 和 0,称为二元特征向量。1 和 0 的顺序会根据特定关键点和其周围的像素区域而变化。该向量表示关键点周围的强度模式,因此多个特征向量可以用来识别更大的区域,甚至图像中的特定对象。
ORB 的特点是速度超快,而且在一定程度上不受噪点和图像变换的影响,例如旋转和缩放变换等。

FAST 算法

ORB 特征检测的第一步是查找图像中的关键点,而关键点检测算法即使用 FAST 算法。
FAST 是 Features from Accelerated Segments Test 的简称,可以快速选择关键点,算法步骤如下:
给与一个像素点 p,FAST 比较目标 p 圆圈范围中的 16 个像素,每个像素按高于 p,小于 p,或者与 p 相似,分为三类。

ORB 特征提取算法(理论篇)第1张

注意这里的比较是带有阈值 h 的。对于给定的阈值 h,更亮的像素将是亮度超过 Ip+h 的像素,更暗的像素将是亮度低于 Ip-h 的像素,相似像素将是亮度在这两个值之间的像素。在对像素分类后, 如果圈圈上有 8 个以上的相连像素,暗于或亮于 p 则将像素 p 选作关键点。
而 FAST 如此高效的原因是,仅将 p 与圆圈中的 4 个等距像素相比。这种方法已经证明和比较 16 个周围像素的效果相同。如果至少有一对连续像素的亮度高于或低于 p,则将 p 选作关键点。这种优化使得在整个图像中搜索关键点的时间缩短了四倍。

ORB 特征提取算法(理论篇)第2张

但是,这些关键点可以像我们提供什么样的信息?对比邻近像素的亮度有何意义?首先观察一下 FAST 算法标记关键点的图像。

ORB 特征提取算法(理论篇)第3张

可以看出关键点位于亮度有变化的区域,此类区域通常确定了某种边缘,例如猫的爪子。边缘定义了猫的界限,以及脸部区域的界限,因此这些关键点使我们能够识别这只猫,而不是图像中的任何其他对象或背景。

BRIEF 算法

我们已经知道 ORB 如何使用 FAST 确定图像中的关键点,下面我们将了解 ORB 如何使用 BRIEF 算法,并将这些关键点转换为特征向量。

ORB 算法的第二步是将第一个算法发现的关键点变成特征向量,这些特征向量可以共同表示一个对象。

要创建特征向量,ORB 会用到 BRIEF 算法。BRIEF 是 Binary Robust Independent Elementary Features 的简称,它的作用是根据一组关键点创建二元特征向量。正如在简介视频中看到的,二元特征向量又称为二元描述符,是仅包含 1 和 0 的特征向量。在 BRIEF 中 每个关键点由一个二元特征向量描述,该向量一般为 128-512 位的字符串,其中仅包含 1 和 0。

ORB 特征提取算法(理论篇)第4张

注意,这里的“位”是二进制位的简称,1 位只能存储一个二进制值,要么 1 要么是 0。位字符串是一组位,这些是位字符串示例。

ORB 特征提取算法(理论篇)第5张

第一个是 1 位字符串 因此只存储 1 位。第二个是 2 位字符串,因此可以存储 2 个二进制位。在此示例中它存储的是 0 和 1。同样,第三个是 3 位字符串,因此可以存储 3 个位,以此类推。计算机运行的是二进制或机器代码,因此使用二元特征向量的一大优势是可以非常高效地存储在内存中,并且可以快速计算。速度对实时应用来说极为关键,这些特性不仅使 BRIEF 速度非常快,而且使 BRIEF 能够在计算资源非常有限的设备(例如智能手机)上运行。

BRIEF 如何为每个点创建这些二元描述符?BRIEF 算法首先利用高斯核对给定图像进行平滑处理,以防描述符对高频噪点过于敏感。然后,对于给定关键点,例如猫爪上的这个点。

ORB 特征提取算法(理论篇)第6张

BRIEF 从该关键点周围界定好的邻域内随机选择一对像素,关键点周围的邻域称为 Patch,它是一个具有特定像素宽度和高度的正方形。
这里显示的随机对中的第一个像素,是一个蓝色正方形,它是从以关键点为中心的高斯分布中抽取的一个像素,标准偏差或分散趋势为 σ。

ORB 特征提取算法(理论篇)第7张

这里显示为黄色正方形的像素,是随机对中的第二个像素。它是从以该第一个像素为中心的高斯分布中抽取的像素,标准偏差为 σ/2,经验表明这种高斯选择提高了特征匹配率。

BRIEF 然后开始为关键点构建二元描述符,方法是如下所示地比较这两个像素的亮度。如果第一个像素比第二个亮,则为描述符中的相应位分配值 1,否则分配值 0。

在这个示例中第二个像素比第一个亮,因此我们为特征向量的第一个位分配值 0。特征向量的第一个位对应的是这个关键点的第一个随机点对,然后 BRIEF 会针对同一关键点选择新的随机像素对比较它们的亮度并为特征向量中的下个位分配 1 或 0。

ORB 特征提取算法(理论篇)第8张

在上面新选取的随机像素中,我们看到现在第一个像素比第二个亮,因此为特征向量中的第二个位分配值 1。

对于 256 位向量,BRIEF 会针对同一关键点重复这一流程 256 次,然后转到下个关键点。接着将 256 个像素亮度比较结果放入该关键点的二元特征向量中。BRIEF 像这样为图像中的每个关键点创建一个向量。

缩放不变性和旋转不变性

ORB 使用 FAST 检测图像中的关键点,并且通过额外的几个步骤确保无论对象的大小或位置如何都能检测到图像中的对象。

给定一个图像 ORB 算法首先开始构建图像金字塔。

图像金字塔是单个图像的多尺度表示法,由一系列原始图像的不同分辨率版本组成。金字塔的每个级别都由上个级别的图像下采样版本组成。下采样是指图像分辨率被降低,比如图像按照 1/2 比例下采样。因此一开始的 4x4 正方形区域现在变成 2x2 正方形。图像的下采样包含更少的像素,并且以 1/2 的比例降低大小。

ORB 特征提取算法(理论篇)第9张

这是一个包含 5 个级别的图形金字塔示例,在每个级别图像都以 1/2 的比例下采样。到了第四级别图像的分辨率是原始图像的 1/16。ORB 创建好图像金字塔后,它会使用 FAST 算法从每个级别不同大小的图像中快速找到关键点。因为金字塔的每个级别由原始图像的更小版本组成,因此原始图像中的任何对象在金字塔的每个级别也会降低大小。
通过确定每个级别的关键点 ORB 能够有效发现不同尺寸的对象的关键点,这样的话 ORB 实现了部分缩放不变性。这一点很重要,因为对象不太可能在每个图像中的大小都完全一样,尤其是像猫这样的对象某个时刻可能靠近相机,在另一个时刻离相机很远。

ORB 特征提取算法(理论篇)第10张

现在 ORB 获得了与这个图像金字塔每个级别相关的关键点。在发现金字塔所有级别中的关键点后,ORB 现在为每个关键点分配一个方向,例如朝左或朝右,取决于该关键点周围的强度是如何变化的。
我们详细了解下背后原理。ORB 首先选择金字塔Level 0 中的图像,对于该图像 ORB 将计算关键点的方向。

ORB 特征提取算法(理论篇)第11张

方法是首先计算以该关键点为中心的方框中的强度形心。强度形心可以看做给定 patch 中的平均像素强度的位置。计算强度形心后,通过画一条从关键点到强度形心的向量,获得该关键点的方向,如上图所示。这个关键点的方向是向下并朝左,因为这个区域的亮度朝着这个方向增强。
为金字塔级别 0 的图像中的每个关键点分配方向后,ORB 现在为所有其他金字塔级别的图像重复相同流程。需要注意的是,在每个图像金字塔级别,Patch 大小并没有缩减,因此相同 Patch 在每个金字塔级别覆盖的图像区域将更大,导致关键点的大小各不相同。

ORB 特征提取算法(理论篇)第12张

可以从此处看出这一点。在此图中,圆圈表示每个关键点的大小,更高的金字塔级别中的关键点大小更大。
找到关键点并为其分配方向后,ORB 现在使用修改后的 BRIEF 版本创建特征向量,这个修改后的 BRIEF 版本称为 rBRIEF,即 Rotation-Aware BRIEF。无论对象的方向如何,它都可以为关键点创建相同的向量,使得 ORB 算法具有旋转不变性,意味着它可以在朝着任何角度旋转的图像中检测到相同的关键点。和 BRIEF 一样 rBRIEF 首先在给定关键点周围的已界定 patch 中随机选择 256 个像素对,以构建 256 位向量。然后根据关键点的方向角度旋转这些随机像素对,使随机点的方向与关键点的一致。最后, rBRIEF 对比随机像素对的亮度并相应地分配 1 和 0 创建对应的特征向量,为图像中的所有关键点创建的所有特征向量集合称之为 ORB 描述符。

使用 ORB 描述符进行对象识别

你已经知道 ORB 算法的原理,但可能会疑问到底可以如何使用 ORB 描述符进行对象识别呢?我们来看一个示例以了解 ORB 如何检测到具有不同大小和方向的同一对象。
假设我想在其他图像中检测到此人的面孔,例如在这个多人合影中,我们将第一张图像称为训练图像,第二张图像,即要对其进行人脸检测的图像,称为查询图像。

ORB 特征提取算法(理论篇)第13张

给定这个训练图像,我想在这个查询图像中查找相似的特征,第一步是计算训练图像的 ORB 描述符并将其存储到内存中。

ORB 特征提取算法(理论篇)第14张

ORB 描述符将包含二元特征向量,用于描述这个训练图像中的关键点。第二步是计算并保存查询图像的 ORB 描述符,获得训练和查询图像的描述符后,最后一步是使用相应的描述符对这两个图像进行关键点匹配,通常使用匹配函数来完成这一步。
匹配函数的目的是匹配两个不同图像的关键点,方法是比较这两个图像的描述符,看看它们是否很相近可以匹配。当匹配函数对比两个关键点时,它会根据某种指标得出匹配质量,这种指标表示关键点特征向量的相似性。可以将这个指标看作与两个关键点之间的标准欧几里得距离相似性。某些指标会直接检测特征向量是否包含相似顺序的 1 和 0。需要注意的是,不同的匹配函数使用不同的指标来判断匹配质量。对于 ORB 等使用的二元描述符来说,通常使用汉明指标,因为它执行起来非常快。
汉明指标通过计算二元描述符之间的不同位数量判断两个关键点之间的匹配质量。在比较训练图像和查询图像的关键点时,差异数最少的关键点对被视为最佳匹配。匹配函数对比完训练图像和查询图像中的所有关键点后,返回最匹配的关键点对。

ORB 特征提取算法(理论篇)第15张

我们的训练图像和查询图像之间的最匹配点显示在此处,可以清晰地看出训练图像和查询图像之间最匹配的点主要对应的是训练图像的面孔。有一两个特征不是太匹配,原因可能是该图像区域的强度模式比较相似。因为大部分点对应的是训练图像中的脸部,可以看出匹配函数能够在查询图像中正确地识别该面孔。

后记

本文是 Udacity 计算机视觉纳米学位课程笔记,下一步将在 OpenCV 中应用 ORB 算法,并观察 ORB 算法的鲁棒性。

免责声明:文章转载自《ORB 特征提取算法(理论篇)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇sql sever 保留有效位数Unity的UGUI学习下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

【转】IOS中各种常用控件的默认高度,很全

1.状态栏 状态栏一般高度为20像素,在打手机或者显示消息时会放大到40像素高,注意,两倍高度的状态栏在好像只能在纵向的模式下使用。如下图   用户可以隐藏状态栏,也可以将状态栏设置为灰色,黑色或者半透明的黑色。   如果需要隐藏状态栏可以使用调用: [[UIApplication sharedApplication] setStatusBarHi...

Go -- LFU类(缓存淘汰算法)(转)

1.LFU类 1.1.LFU 1.1.1.原理 LFU(LeastFrequentlyUsed)算法根据数据的历史访问频率来淘汰数据,其核心思想是“如果数据过去被访问多次,那么将来被访问的频率也更高”。 1.1.2.实现 LFU的每个数据块都有一个引用计数,所有数据块按照引用计数排序,具有相同引用计数的数据块则按照时间排序。 具体实现如下: 1.新加...

(3)mpeg系列——mpeg1和mpeg2

  MPEG是Moving Picture Experts Group的简称。这个名字本来的含义是指一个研究视频和音频编码标准的小组。现在我们所说的MPEG泛指又该小组制定的一系列视频编码标准。该小组于 1988年组成,至今已经制定了MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7等多个标准,MPEG-21正在制定中。 MPEG到目前为...

Java学习资源整理(超级全面)

这里整理一些自己平常搜集的比较好的关于Java的学习资源,主要包括博客站点、书籍、课程等。 了解Java最新资讯 这部分主要是了解与Java相关的动态以及信息,能够拓展我们的视野以及寻找一些好的idea。每天早晚都可以刷一刷,可以说是每日必逛。下面列出我采取的几种方式。 1.关注twitter上的Java组织以及大牛 许多大牛或公司会在twitter上发布...

基于opencv的手写数字字符识别

  摘要 本程序主要参照论文,《基于OpenCV的脱机手写字符识别技术》实现了,对于手写阿拉伯数字的识别工作。识别工作分为三大步骤:预处理,特征提取,分类识别。预处理过程主要找到图像的ROI部分子图像并进行大小的归一化处理,特征提取将图像转化为特征向量,分类识别采用k-近邻分类方法进行分类处理,最后根据分类结果完成识别工作。 程序采用Microsoft V...

【TCP/IP】Nagle 算法以及所谓 TCP 粘包

一、Nagle 算法 我们以 SSH 协议举例,通常在 SSH 连接中,单次击键就会引发数据流的传输。如果使用 IPv4,一次按键会生成约 88 字节大小的 TCP/IPv4 包(使用安全加密和认证):20 字节的 IP 头部,20 字节的 TCP 头部(假设没有选项),数据部分为 48 字节。这些小包(称为微型报(tinygram))会造成相当高的网络传...