STEP-7：Pytorch-目标检测和边界框

作者: 可恶小林子 | 来源:发表于2020-02-21 18:11 被阅读0次

STEP-7：Pytorch-目标检测和边界框
目标检测基础；图像风格迁移；图像分类案例 2020-02-25
CornerNet
目标检测基础
深度学习-3
目标检测算法中的真实框、预测框和锚框
目标检测中边界框回归算法(bounding box regres
扩展：目标检测基础
（giou loss）Generalized Intersect
Selective Search原理

感谢伯禹学习平台，本次学习将记录记录如何使用Pytorch高效实现网络，熟练掌握Pytorch的基础知识。记录不包含理论知识的细节展开。

这部分比较特殊，主要讲解了目标检测中框的设定，不涉及主流的目标检测网络。主要使梳理其中的锚框。由于刚好最近导师项目需要，梳理该部分的基础知识。主要使概念理解，不涉及代码部分，以下内容参考以下链接。
学习代码可以参考

一：锚框生成

假设输入图像高为 $h$ ，宽为 $w$ 。我们分别以图像的每个像素为中心生成不同形状的锚框。设大小为 $s\in (0,1]$ 且宽高比为 $r > 0$ ，那么锚框的宽和高将分别为 $ws\sqrt{r}$ 和 $hs/\sqrt{r}$ 。当中心位置给定时，已知宽和高的锚框是确定的。

下面我们分别设定好一组大小 $s_1,\ldots,s_n$ 和一组宽高比 $r_1,\ldots,r_m$ 。如果以每个像素为中心时使用所有的大小与宽高比的组合，输入图像将一共得到 $whnm$ 个锚框。虽然这些锚框可能覆盖了所有的真实边界框，但计算复杂度容易过高。因此，我们通常只对包含 $s_1$ 或 $r_1$ 的大小与宽高比的组合感兴趣，即

$(s_1, r_1), (s_1, r_2), \ldots, (s_1, r_m), (s_2, r_1), (s_3, r_1), \ldots, (s_n, r_1).$

也就是说，以相同像素为中心的锚框的数量为 $n+m-1$ 。对于整个输入图像，我们将一共生成 $wh(n+m-1)$ 个锚框。
这里需要注意的是，其实不同的方法使用的生成锚框的方法不同，具体实现细节可以参考论文。

二：交并比（IoU）

我们刚刚提到某个锚框较好地覆盖了图像中的狗。如果该目标的真实边界框已知，这里的“较好”该如何量化呢？一种直观的方法是衡量锚框和真实边界框之间的相似度。我们知道，Jaccard系数（Jaccard index）可以衡量两个集合的相似度。给定集合 $\mathcal{A}$ 和 $\mathcal{B}$ ，它们的Jaccard系数即二者交集大小除以二者并集大小：

$J(\mathcal{A},\mathcal{B}) = \frac{\left|\mathcal{A} \cap \mathcal{B}\right|}{\left| \mathcal{A} \cup \mathcal{B}\right|}.$

实际上，我们可以把边界框内的像素区域看成是像素的集合。如此一来，我们可以用两个边界框的像素集合的Jaccard系数衡量这两个边界框的相似度。当衡量两个边界框的相似度时，我们通常将Jaccard系数称为交并比（Intersection over Union，IoU），即两个边界框相交面积与相并面积之比，如图所示。交并比的取值范围在0和1之间：0表示两个边界框无重合像素，1表示两个边界框相等。

IoU计算图示

三：标注训练集的锚框

在训练集中，我们将每个锚框视为一个训练样本。为了训练目标检测模型，我们需要为每个锚框标注两类标签：一是锚框所含目标的类别，简称类别；二是真实边界框相对锚框的偏移量，简称偏移量（offset）。在目标检测时，我们首先生成多个锚框，然后为每个锚框预测类别以及偏移量，接着根据预测的偏移量调整锚框位置从而得到预测边界框，最后筛选需要输出的预测边界框。

我们知道，在目标检测的训练集中，每个图像已标注了真实边界框的位置以及所含目标的类别。在生成锚框之后，我们主要依据与锚框相似的真实边界框的位置和类别信息为锚框标注。那么，该如何为锚框分配与其相似的真实边界框呢？

假设图像中锚框分别为 $A_1, A_2, \ldots, A_{n_a}$ ，真实边界框分别为 $B_1, B_2, \ldots, B_{n_b}$ ，且 $n_a \geq n_b$ 。定义矩阵 $\boldsymbol{X} \in \mathbb{R}^{n_a \times n_b}$ ，其中第 $i$ 行第 $j$ 列的元素 $x_{ij}$ 为锚框 $A_i$ 与真实边界框 $B_j$ 的交并比。
首先，我们找出矩阵 $\boldsymbol{X}$ 中最大元素，并将该元素的行索引与列索引分别记为 $i_1,j_1$ 。我们为锚框 $A_{i_1}$ 分配真实边界框 $B_{j_1}$ 。显然，锚框 $A_{i_1}$ 和真实边界框 $B_{j_1}$ 在所有的“锚框—真实边界框”的配对中相似度最高。接下来，将矩阵 $\boldsymbol{X}$ 中第 $i_1$ 行和第 $j_1$ 列上的所有元素丢弃。找出矩阵 $\boldsymbol{X}$ 中剩余的最大元素，并将该元素的行索引与列索引分别记为 $i_2,j_2$ 。我们为锚框 $A_{i_2}$ 分配真实边界框 $B_{j_2}$ ，再将矩阵 $\boldsymbol{X}$ 中第 $i_2$ 行和第 $j_2$ 列上的所有元素丢弃。此时矩阵 $\boldsymbol{X}$ 中已有两行两列的元素被丢弃。
依此类推，直到矩阵 $\boldsymbol{X}$ 中所有 $n_b$ 列元素全部被丢弃。这个时候，我们已为 $n_b$ 个锚框各分配了一个真实边界框。
接下来，我们只遍历剩余的 $n_a - n_b$ 个锚框：给定其中的锚框 $A_i$ ，根据矩阵 $\boldsymbol{X}$ 的第 $i$ 行找到与 $A_i$ 交并比最大的真实边界框 $B_j$ ，且只有当该交并比大于预先设定的阈值时，才为锚框 $A_i$ 分配真实边界框 $B_j$ 。

如下图所示，假设矩阵 $\boldsymbol{X}$ 中最大值为 $x_{23}$ ，我们将为锚框 $A_2$ 分配真实边界框 $B_3$ 。然后，丢弃矩阵中第2行和第3列的所有元素，找出剩余阴影部分的最大元素 $x_{71}$ ，为锚框 $A_7$ 分配真实边界框 $B_1$ 。接着如图（中）所示，丢弃矩阵中第7行和第1列的所有元素，找出剩余阴影部分的最大元素 $x_{54}$ ，为锚框 $A_5$ 分配真实边界框 $B_4$ 。最后如图（右）所示，丢弃矩阵中第5行和第4列的所有元素，找出剩余阴影部分的最大元素 $x_{92}$ ，为锚框 $A_9$ 分配真实边界框 $B_2$ 。之后，我们只需遍历除去 $A_2, A_5, A_7, A_9$ 的剩余锚框，并根据阈值判断是否为剩余锚框分配真实边界框。

image

现在我们可以标注锚框的类别和偏移量了。如果一个锚框 $A$ 被分配了真实边界框 $B$ ，将锚框 $A$ 的类别设为 $B$ 的类别，并根据 $B$ 和 $A$ 的中心坐标的相对位置以及两个框的相对大小为锚框 $A$ 标注偏移量。由于数据集中各个框的位置和大小各异，因此这些相对位置和相对大小通常需要一些特殊变换，才能使偏移量的分布更均匀从而更容易拟合。设锚框 $A$ 及其被分配的真实边界框 $B$ 的中心坐标分别为 $(x_a, y_a)$ 和 $(x_b, y_b)$ ， $A$ 和 $B$ 的宽分别为 $w_a$ 和 $w_b$ ，高分别为 $h_a$ 和 $h_b$ ，一个常用的技巧是将 $A$ 的偏移量标注为

$\left( \frac{ \frac{x_b - x_a}{w_a} - \mu_x }{\sigma_x}, \frac{ \frac{y_b - y_a}{h_a} - \mu_y }{\sigma_y}, \frac{ \log \frac{w_b}{w_a} - \mu_w }{\sigma_w}, \frac{ \log \frac{h_b}{h_a} - \mu_h }{\sigma_h}\right),$

其中常数的默认值为 $\mu_x = \mu_y = \mu_w = \mu_h = 0, \sigma_x=\sigma_y=0.1, \sigma_w=\sigma_h=0.2$ 。如果一个锚框没有被分配真实边界框，我们只需将该锚框的类别设为背景。类别为背景的锚框通常被称为负类锚框，其余则被称为正类锚框。

三：预测锚框

在模型预测阶段，我们先为图像生成多个锚框，并为这些锚框一一预测类别和偏移量。随后，我们根据锚框及其预测偏移量得到预测边界框。当锚框数量较多时，同一个目标上可能会输出较多相似的预测边界框。为了使结果更加简洁，我们可以移除相似的预测边界框。常用的方法叫作非极大值抑制（non-maximum suppression，NMS）。

我们来描述一下非极大值抑制的工作原理。对于一个预测边界框 $B$ ，模型会计算各个类别的预测概率。设其中最大的预测概率为 $p$ ，该概率所对应的类别即 $B$ 的预测类别。我们也将 $p$ 称为预测边界框 $B$ 的置信度。在同一图像上，我们将预测类别非背景的预测边界框按置信度从高到低排序，得到列表 $L$ 。从 $L$ 中选取置信度最高的预测边界框 $B_1$ 作为基准，将所有与 $B_1$ 的交并比大于某阈值的非基准预测边界框从 $L$ 中移除。这里的阈值是预先设定的超参数。此时， $L$ 保留了置信度最高的预测边界框并移除了与其相似的其他预测边界框。
接下来，从 $L$ 中选取置信度第二高的预测边界框 $B_2$ 作为基准，将所有与 $B_2$ 的交并比大于某阈值的非基准预测边界框从 $L$ 中移除。重复这一过程，直到 $L$ 中所有的预测边界框都曾作为基准。此时 $L$ 中任意一对预测边界框的交并比都小于阈值。最终，输出列表 $L$ 中的所有预测边界框。

STEP-7：Pytorch-目标检测和边界框
感谢伯禹学习平台，本次学习将记录记录如何使用Pytorch高效实现网络，熟练掌握Pytorch的基础知识。记录不包...
目标检测基础；图像风格迁移；图像分类案例 2020-02-25
目标检测基础目标检测和边界框边界框锚框目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否...
CornerNet
提出了一种新的目标检测方法，使用单个卷积神经网络将目标边界框检测为一对关键点（即边界框的左上角和右下角）。...
目标检测基础
1. 目标检测和边界框实际上是人工生成一系列有限个框，然后给这些框打标签 2. 锚框目标检测算法通常会在输入图...
深度学习-3
1.目标检测基础生成边界框什么是锚框对于一个检测图像，会有大量的采样区域，并调整边缘使得能够更准确预测目标的...
目标检测算法中的真实框、预测框和锚框
目标检测算法中有几种标识物体位置的框，本文依次介绍：边界框，bounding box，用于标识物体的位置，常用格...
目标检测中边界框回归算法(bounding box regres
目标检测中边界框回归算法(bounding box regression) 本笔记将学习如何训练自定义深度学习模型...
扩展：目标检测基础
添加边界框锚框目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整...
（giou loss）Generalized Intersect
动机目前目标检测中主流的边界框优化采用的都是BBox的回归损失(MSE loss, L1-smooth loss...
Selective Search原理
在目标检测中，我们不仅需要识别出图像中存在哪些类别的对象，还需要输出它们的边界框（bounding boxes）,...