穷尽搜索

Robust Real-Time Face Detection

固定的框大小24*24，枚举同一图片的多种尺度（1.25倍放缩）来实现不同大小的框的枚举，把框在图像上滑动来检测不同位置。因为穷尽搜索巨大的搜索量，所以需要可以快速计算的特征，在这里使用了四种特征：

特征定义为白色区域的像素和减去灰色区域的像素和（可以理解成一种固定权重的卷积操作）

由于矩形的形状和位置可以在当前框内变动，所以会产生十万级别的特征，利用前缀和进行优化可以快速计算。该工作后续会使用Cascaded Classifier判断当前框是否是一个人脸，只有当前一阶段成功时才会进入下一阶段，改善了时间消耗。

Histograms of Oriented Gradients for Human Detection

HOG特征：[latex]c\times c[/latex]个pixel组成一个个互不重叠的cell，[latex]b\times b[/latex]个cell组成一个个互相可重叠的block，在每个cell中计算梯度直方图，在每个block中将所有cell的直方图拼接起来然后归一化，作为block特征。

对于一个窗口，使用其内部所有可重叠的block的特征拼接后作为该窗口的特征，同样使用固定尺寸的窗口进行遍历。

Combining Efficient Object Localization and Image Classification

可以说是物体检测两阶段法的鼻祖？第一阶段选取备选框，第二阶段进行分类（这个两阶段其实是Cascaded Classifier）。同样是枚举所有窗口然后判断是否可以作为备选框，使用了HOG和BOF特征，其中BOF特征为对整个数据集的SIFT特征聚类后量化的结果。

总结

使用穷尽搜索的瓶颈在于可能的窗口过多，基本上都要固定窗口大小再滑动（可能会进行几个固定的比例放缩），和目前的anchor-based方法比较相似。

但是由于需要给所有枚举出来的窗口分类，因此学习的部分需要ground truth，不适用于无标注数据集，不适用于没有见过的类别。

Region Proposal for Object Detection

穷尽搜索

Robust Real-Time Face Detection

Histograms of Oriented Gradients for Human Detection

Combining Efficient Object Localization and Image Classification

总结

分割

Leave a Comment Cancel