Region Proposal for Object Detection

目前大致分成三种类别:穷尽搜索、分割、其他。

  • 穷尽搜索: 通过枚举所有可能的框(或者一部分有代表性的框),为每个框判断它是不是可以作为备选框。
  • 分割: 对图像进行分割,通过实例级的分割结果生成备选框。

穷尽搜索

Robust Real-Time Face Detection

固定的框大小24*24,枚举同一图片的多种尺度(1.25倍放缩)来实现不同大小的框的枚举,把框在图像上滑动来检测不同位置。因为穷尽搜索巨大的搜索量,所以需要可以快速计算的特征,在这里使用了四种特征:

特征定义为白色区域的像素和减去灰色区域的像素和(可以理解成一种固定权重的卷积操作)

由于矩形的形状和位置可以在当前框内变动,所以会产生十万级别的特征,利用前缀和进行优化可以快速计算。该工作后续会使用Cascaded Classifier判断当前框是否是一个人脸,只有当前一阶段成功时才会进入下一阶段,改善了时间消耗。

Histograms of Oriented Gradients for Human Detection

HOG特征:[latex]c\times c[/latex]个pixel组成一个个互不重叠的cell,[latex]b\times b[/latex]个cell组成一个个互相可重叠的block,在每个cell中计算梯度直方图,在每个block中将所有cell的直方图拼接起来然后归一化,作为block特征。

对于一个窗口,使用其内部所有可重叠的block的特征拼接后作为该窗口的特征,同样使用固定尺寸的窗口进行遍历。

Combining Efficient Object Localization and Image Classification

可以说是物体检测两阶段法的鼻祖?第一阶段选取备选框,第二阶段进行分类(这个两阶段其实是Cascaded Classifier)。同样是枚举所有窗口然后判断是否可以作为备选框,使用了HOG和BOF特征,其中BOF特征为对整个数据集的SIFT特征聚类后量化的结果。

总结

使用穷尽搜索的瓶颈在于可能的窗口过多,基本上都要固定窗口大小再滑动(可能会进行几个固定的比例放缩),和目前的anchor-based方法比较相似。

但是由于需要给所有枚举出来的窗口分类,因此学习的部分需要ground truth,不适用于无标注数据集,不适用于没有见过的类别。

分割

Selective Search是一种应用最广泛的备选框提取算法,其基本思想是先随机对

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注