《RMPE: Regional Multi-Person Pose Estimation》论文阅读之AlphaPose

首先附上论文地址：https://arxiv.org/pdf/1612.00137.pdf作者：上海交大卢策吾老师组AlphaPose项目地址：https://github.com/MVIG-SJTU/AlphaPose亮点：提出了一种 regional multi-person pose estimation（RMPE）框架，框架包括三个部分效果：最新的AlphaPose在MPII数据集...

文章共7,440字 · 阅读需要大约25分钟

一键AI生成摘要，助你高效阅读

问答

山水之间2018

4440人浏览 · 2019-05-07 15:47:09

山水之间2018 · 2019-05-07 15:47:09 发布

首先附上论文地址：https://arxiv.org/pdf/1612.00137.pdf
作者：上海交大卢策吾老师组
AlphaPose项目地址：https://github.com/MVIG-SJTU/AlphaPose
亮点：提出了一种 regional multi-person pose estimation（RMPE） 框架，框架包括三个部分
$\begin{cases} \text{Symmetric Spatial Transformer Network (SSTN)} \\ \text{Parametric Pose Non-Maximum-Suppresion (NMS)} \\ \text{Pose-Guided Proposals Generator (PGPG)}\end{cases}$
效果：最新的AlphaPose在MPII数据集上已经能够达到82.1的mAP

该系统在姿态估计（pose estimation）的标准测试集COCO上较现有最好姿态估计开源系统Mask-RCNN相对提高8.2%，较另一个常用开源系统OpenPose（CMU）相对提高17%。同时，卢策吾团队也开源了两个基于AlphaPose的工作：（1）一个高效率的视频姿态跟踪器（pose tracker），目前姿态跟踪准确率第一。（2）一个新的应用“视觉副词识别“（Visual Adverb Recognition）。

论文主要考虑的是top-down的关键点检测算法在目标检测产生Proposals的过程中，可能会出现检测框定位误差、对同一个物体重复检测等问题。检测框定位误差，会出现裁剪出来的区域没有包含整个人活着目标人体在框内的比例较小，造成接下来的单人人体骨骼关键点检测错误；对同一个物体重复检测，虽然目标人体是一样的，但是由于裁剪区域的差异可能会造成对同一个人会生成不同的关键点定位结果。本文提出了一种方法来解决目标检测产生的Proposals所存在的问题，即通过空间变换网络（STN）将同一个人体的产生的不同裁剪区域（Proposals）都变换到一个较好的结果，如人体在裁剪区域的正中央，这样就不会产生对于一个人体的产生的不同Proposals有不同关键点检测效果。检测使用的是SSD-512，识别人体姿态使用的是Stacked Hourglass方法。

这个算法是由三部分组成的：

1 Symmetric Spatial Transformer Network – SSTN 对称空间变换网络：在不准确的bounding box中提取单人区域

2 Parametric Pose Non-Maximum-Suppression – NMS 参数化姿态非最大抑制：解决冗余

3 Pose-Guided Proposals Generator – PGPG 姿态引导区域框生成器：增强训练数据

该方法能够处理不准确的bounding box（边界框）和冗余检测，在MPII数据集上达到76.7mAP.

关于空间变换网络，详见这里STN和STN

一、介绍

多人姿态估计有两个主流方案：Two-step framework & Part-based framework。第一种方案是检测环境中的每一个人体检测框，然后独立地去检测每一个人体区域的姿态（自顶向下的方法）。第二种方案是首先检测出环境中的所有肢体节点，然后进行拼接得到多人的骨架（自底向上的方法）。第一种方案，姿态检测准确度高度以来目标区域框检测的质量。第二种方案，如果两人离得十分近，容易出现模棱两可的情况，而且由于是依赖两个部件之间的关系，所以失去了对全局的信息获取。

论文采用自顶向下方法。我们的目标是检测出正确的人体姿态即使在第一步中检测到的是不精准的区域框。为了说明之前的算法存在这些问题，我们使用Faster-RCNN和SPPE Stacked Hourglass进行实验，主要的问题是位置识别错误和识别冗余，如图1和图2所示。事实上，SPPE对于区域框错误是非常脆弱的，即使是使用IoU>0.5的边界框认为是正确的，检测到的人体姿态依然可能是错误的。冗余的区域框会产生冗余的姿态。

本文采用的是自上而下（top-dowm）的姿态估计方法，即首先执行对人的检测，确定检测区域，然后再执行单个人的姿态估计，最终将结果融合得到完整的姿态估计。自上而下的检测方法存在两个主要的问题：（1）单人检测框的定位存在误差（如下图1）；（2）多余检测问题（如下图2）。

冗余：两个bounding box框住同一个人，会检测两遍，形成两个骨架

针对以上两个问题，本文提出的方法效果十分可观，大致如下：

（1）设计了SSTN的网络结构用于得到高质量的单人检测区域
（2）使用NMS算法来解决多个检测框出现的问题

因此，提出了RMPE（区域多人姿态检测）框架，提升SPPE-based性能。在SPPE结构上添加SSTN，能够在不精准的区域框中提取到高质量的人体区域。并行的SPPE分支（SSTN）来优化自身网络。使用parametric pose NMS来解决冗余检测问题，在该结构中，使用了自创的姿态距离度量方案比较姿态之间的相似度。用数据驱动的方法优化姿态距离参数。最后我们使用PGPG来强化训练数据，通过学习输出结果中不同姿态的描述信息，来模仿人体区域框的生成过程，进一步产生一个更大的训练集。

我们的RMPE框架是通用的，适用于不同的人体探测器和单人姿势估计器。将RMPE框架应用于MPII（多人）数据集[3]，达到state-of-the-art效果76.7 mAP。我们还进行了切除研究，以验证我们框架中每个组件的有效性。

二、相关工作

2.1 单人姿态估计

……单人姿态估计总是需要保证人被正确的定位。

2.2 多人姿态估计

Part-Base 先检测关键点，再连接；先检测肢体

Two-Step 目标检测+单人姿态估计

三、 RMPE

如图3所示。首先通过目标检测算法，得到人体的区域框。然后将该区域框输入到STN+SPPE模块中，自动检测人体姿态。再通过PP-NMS进行refine。在训练过程中，使用Parallel SPPE来避免局部最优并进一步提升SSTN的效果。设计PGPG结构来增强已有的训练集。

图解：SSTN=STN+SPPE+SDTN，STN处理区域框，SPPE单人姿态估计，STDN产生姿态建议。并行SPPE作为训练阶段的额外正则化。PP-NMS去除冗余姿态。使用PGPG产生的增强图像来训练SSTN+SPPE。

首先使用基于VGG的SSD-512网络（作者也尝试了基于ResNet-152的Faster-RCNN网络）用作单人检测得到人体检测框，然后经过SSTN+SPPE网络生成pose proposals（单人的姿态估计采用stacked hourglass模型），再通过parametric Pose NMS算法得到估计的人体姿态。
在训练期间，使用Parallel SPPE来防止局部极小值并充分发挥SSTN的优势，此外，采用了pose-guided proposals generator（PGPG）方法来增强数据集

3.1 Symmetric STN and Parallel SPPE

对称空间变换网络，并行单人姿态估计

目标检测算法得到的人体区域框不是非常适合SPPE，因为SPPE算法是训练在单人图像上并且对于定位错误十分敏感。通过微小变换、修剪的方法可以有效的提高SPPE的效果。SSTN+Parallel SPPE可以在不完美的人体区域检测结果下有效的增强SPPE的效果，结构如图4所示。

STN和SDTN

STN是空间变换网络，用于执行二维的放射变换：

其中， $\theta_1 \ \theta_2 \ \theta_3$ 是二维向量， $\{x^s_i \ \ y^s_i\} \ \ \{x^t_i \ \ y^t_i\}$ 分别为线性变换之前和之后的坐标

SDTN用于STN的逆映射：
$\begin{pmatrix} x^t_i \\ y^s_t\end{pmatrix} = [\gamma_1 \ \ \gamma_2 \ \ \gamma_3] \begin{pmatrix} x^s_i \\ y^s_i \\ 1\end{pmatrix} \tag2$
$[\gamma_1 \ \ \gamma_2] = [\theta_1 \ \ \theta_2]^{-1} \\ \gamma_3 = -1 \times [\gamma_1 \ \ \gamma_2] \theta_3 \ \tag3$

在SPPE结束的时候，姿态结果会被映射到原始的人体区域框中（就是把姿态线绘制到对应的人体区域框中）。因此，SDTN应该将估计的人体姿态反映射回原图坐标中（这样子的话人体姿态线就会存在于原图尺寸的图像中）。SDTN中需要为反向转换和生成网格计算一个γ。

在得到高质量的人体检测框后，可以使用现成的SPPE算法来继续高精度的人体姿态检测，在训练过程中，SSTN和SPPE一起进行fine-tuned。

总结：不准确的检测框经过STN+SPPE+SDTN，先做姿态估计，把估计结果映射到原图，以此来调整原本的框，使框变成精准的。

Parallel SPPE（仅用于训练阶段）

为了进一步帮助STN去提取更好的人体区域位置，在训练阶段添加了一个Parallel SPPE分支。这个分支和上一个分支共享同一个STN，但是省略了SDTN，而且训练标签为单个人的ground truth姿态，训练时这个分支网络的各个层和权重是固定的，目的是当输出与ground truth间的误差较大时，产生较大的loss来帮助STN进行正确的变换，得到高质量的人体框

文中还对为何不直接在SPPE之后（SDTN之前）加入损失函数进行了分析，因为这种方法同时对STN和SPPE进行训练，STN很难完美的进行变换使之与标签相契合，这将会大大减弱SPPE进行姿态预测的能力，因此加入Parallel SPPE部分来固定SPPE，只更新STN以保证STN达到最优

这个Paralell SPPE也是从STN中链接出来，然后和SPPE并行处理，但是SDTN被忽略掉。这个分支的人体姿态标签被指定为中心。更准确的说，SPPE网络的输出直接和人体姿态标签的真实值进行对比。在训练过程中会关闭Parallel SPPE的所有层。这个分支的权重是固定的，其目的是将姿态定位后产生的误差反向传播到STN模块。如果STN提取的姿态不是中心位置，那么Parallel SPPE会返回一个较大的误差。通过这种方式，我们可以帮助STN聚焦在正确的中心位置并提取出高质量的区域位置。在测试阶段，Parallel SPPE不会使用，因此只有在训练阶段Parallel SPPE才会产生作用。

图解：表示了SSTN + Parallel SPPE模块的结构，SDTN结构接收一个由定位网络生成的参数θ，然后为反向转换计算参数γ。我们使用网格生成器和采样器去提取一个人的所在区域，在Parallel SPPE中，制定一个中心定位姿态标签。我们冻结Parallel SPPE的所有层的所有权重来增强STN去提取一个单人姿态区域。

Discussions。Parallel SPPE可以看作是训练阶段的正则化过程，有助于避免局部最优的情况（STN不能把姿态转换到提取到人体区域框的居中位置）。但是SDTN的反向修正可以减少网络的错误进而降低陷入局部最优的可能性。这些错误对于训练STN是很有影响的。通过Parallel SPPE，可以提高STN将人体姿态移动到检测框中间的能力。

感觉上似乎可以在SPPE的输出时添加一个中心定位点的回归损失来取代Parallel SPPE。然而，这种方法会降低我们整个系统的性能。尽管STN可以部分修改输入，但是不可能完美的将人定位在标签的位置。在坐标空间上的输入和SPPE标注的差异会很大程度的损害训练姿态估计的能力。这会导致我们主分支SPPE的性能下降。因此，为了确保STN和SPPE同时发挥自己的作用，一个固定权重的Parallel SPPE是不可缺少的。Parallel SPPE总是会产生较大的误差因为会将没有中心的姿态来推动STN产生一个有中心的姿态，但是不会影响到主分支SPPE的效果。

3.2. Parametric Pose NMS 参数化姿态非最大抑制

人体定位不可避免的会产生冗余的检测框，同时也会产生冗余的姿态检测。所以，姿态非极大值抑制是十分有必要的，用来消除冗余。以前的方法要么效率不高，要么精确度不高。在论文中，提出了一种parametric pose NMS（参数化姿态非极大值抑制）方法。对于一个人的姿态Pi，有m 个关节点记做{(k1i,c1i),(k2i,c2i),...,(kmi,cmi)}，kji 和 cji 分别表示第 j 个部位的坐标位置和置信度分数。

NMS schema。NMS体系。回顾一下NMS：首先选取最大置信度的姿态作为参考，并且根据消除标准将靠近该参考的区域框进行消除。这个过程多次重复直到冗余的识别框被消除并且每一个识别框都是唯一的出现（没有超过阈值的重叠）。

Elimination Criterion。消去法则。 我们需要定义姿态相似度来消除那些离得较近且比较相似的姿态。我们定义了一种姿态距离度量d(Pi,Pj|Λ)来衡量姿态之间的相似度，定义η作为消除标准的阈值，在这里的Λ表示函数d(⋅)的一个参数集合。我们的消除标准可以定义为下面的形式：

如果d(⋅)小于阈值η，那么f(⋅)的输出是1，表示姿态Pi应该被消除，因为对于参考的Pj来说Pi是冗余的。

定义姿态距离度量公式
$f(P_i,P_j|\Lambda,\eta) = 1[d(P_i,P_j|\Lambda,\lambda) \leq \eta] \tag4$
其中， $P_i \ \ P_j$ 分别为生成的姿态和参考姿态（置信度最高的pose被选作参考姿态）， $P_i = \{\langle k^1_i,c^1_i\rangle,...,\langle k^m_i,c^m_i \rangle\}$
$m$ 代表关节点个数， $k^j_i \ \ c^j_i$ 分别代表第 $j$ 个关节点的位置和置信值， $\eta$ 为阈值
如果 $d(\cdot)$ 小于 $\eta$ ， $f(\cdot)$ 输出为1，表明姿态 $P_i$ 相对于置信度最高的参考姿态 $P_j$ 是多余的，需要删除

Pose Distance。姿态距离。定义距离函数dpose（Pi,Pj）。假设姿态Pi的区域框是Bi。然后我们定义一个软匹配函数：

B(kni)表示部位i的区域位置，维度上大约是整体图像的1/10。Tanh可以滤掉低置信度的姿态，当两个姿态的置信度都比较高的时候，上述函数的输出接近1。这个距离表示了姿态之间不同部位的匹配数。空间距离可以定义为：

因此最终距离可以定义为：

其中λ是一个权重系数，来平衡这两种距离，Λ表示{σ1,σ2,λ}，参考之前的pose NMS进行参数设置。

首先假定姿态 $P_i$ 的检测框为 $B_i$ ，定义一个匹配函数
$K_{Sim}(P_i,P_j|\sigma_1) = \begin{cases} \sum_{n} tanh \frac{c^n_i}{\sigma_1} \cdot tanh \frac{c^n_j}{\sigma_1}, & \text{if $k^n_j$ is within $\cal B(k^n_i)$} \\ 0 & \text{otherwise}\end{cases} \tag5$
$\cal B(k^n_i)$ 是中心位于 $k^n_j$ 的box，且尺寸为 $B_i$ 的十分之一，tanh操作过滤了大部分置信分数较低的姿态，如果对应两个关节的置信分数都比较高，则 $K_{Sim}(P_i,P_j|\sigma_1)$ 趋向于1
$H_{Sim}(P_i,P_j|\sigma_1) = \sum_n \text{exp}[- \frac{(k^n_i - k^n_j)^2} {\sigma_2}] \tag6$
$d(P_i,P_j|\Lambda) = K_{Sim}(P_i,P_j|\sigma_1) + \lambda H_{Sim}(P_i,P_j|\sigma_2) \tag7$
$\lambda$ 为平衡两种距离的权重， $\Lambda = \{\sigma_1, \sigma_2, \lambda \}$

Optimization 。优化。给定检测到的冗余姿态，消除标准f(Pi,Pj|Λ, η)的这四个参数被优化以实现验证集的最大mAP。由于在4D空间中的穷举搜索是难以处理的，所以在迭代的过程中，固定两个参数变化另外两个参数进行搜索最优解。一旦收敛，这些参数将会固定，并用在测试阶段。

3.3. Pose-guided Proposals Generator 姿态引导的区域框生成器

Data Augmentation 数据增强

对于Two-Stage姿态识别（首先定位区域，然后进行姿态点定位），适当的数据增强有助于让SSTN+SPPE适应不完美的人体区域定位结果。否则，模型在测试阶段运行时可能不是很适应奇怪的人体定位结果。一种直观的方法是在训练阶段使用检测出来的区域框。然而，目标检测对于一个人而言只会产生一个定位区域。通过使用生成的人体定位，可以产生一定得效果。因为我们已经有了每一个人的真实位置和检测出来的定位框，我们可以通过与人体检测结果一致的样本生成一个大样本的训练集。通过这种技术，我们可以进一步提高系统的性能。

Insight

我们寻找对于不同姿态之间真实值和实际预测值的相对偏移量的分布。为了进一步明确过程，这里定义P(δB|P)，δB表示检测到的人体位置的坐标和实际人体的标注坐标之间的偏移量，P是真实情况中一个人。我们可以根据目标检测得到的推荐位置生成一些训练集。

Implementation

直接学习P(δB|P)对于易变的人体姿态是比较困难的。因此我们使用P(δB|atom(P))，atom（P）表示P的原子组成部分（P是一个姿态，包含多个关节点）。为了得到姿态的原子结构，我们首先排列好所有的具有相同长度肢体。然后使用K-means聚类得到的聚类中心做为姿态的原子姿态。

对于每一个共享原子姿态a的实例，计算真实值和检测边界框的偏移量。然后使用该方向上的真实边框的边长进行归一化处理。处理后，偏移量会形成一个频率分布，并将我们的数据拟合成高斯混合分布。对于不同的原子姿态，我们会得到不同的高斯混合分布，如图5：

Proposals Generation

在训练阶段的SSTN+SPPE，对于每一个在训练集中标注的姿态，我们首先找到对应的原子姿态a。然后通过密集采样计算P(δB|a)来得到增强的训练建议。

四、实验

所提出的方法在具有大遮挡情况的两个标准多人数据集上进行定性和定量评估：MPII [3]和MSCOCO 2016关键点挑战数据集[1]。

4.1评估数据集

MPII：多人，3844训练，1758测试，有遮挡和重叠，28000个单人姿态估计样本。使用单人数据集中所有训练数据和90%多人训练集来微调SPPE，留下10%用于验证。

MSCOCO关键点挑战。105698训练，80000测试，100W个关键点。

4.2测试实现细节

基于VGG的SSD-512作为人体检测器。检测到人体后，高度和宽度都延伸30%。使用stacked hourglass模型做单人姿态估计。对于STN网络，采用ResNet-18作为本地化网络，使用较小的4-stacked hourglass作为并行SPPE。

为了标明框架的应用能力，人体检测器可替换为基于Faster-RCNN的ResNet152，姿态估计可以替换为PyraNet。

4.3结果

MPII。如表1所示，在手腕，肘部，踝关节和膝盖等困难关节时达到了

72 mAP 的平均准确度。

MSCOCO。利用MSCOCO keypoints的训练集和验证集，来fine-tune SPPE，并留下5000图像用于验证。表2为测试结果，优于其他方法。

4.4消除实验

为了验证这三个组件的有效性：SSTN,PGPG,PP-NMS。移除或者使用常规方法来替代。在MPII上实验，结果见表3.

Symmetric STN and Parallel SPPE

为了验证SSTN和parallel SPPE的重要性，进行了两个实验。在第一个实验中删除了SSTN和并行SPPE。在第二个实验中，我们只删除了并行SPPE并保持SSTN结构。这些结果均显示在表3（a）中。我们可以在去除平行SPPE时观察到性能下降，这意味着具有单人图像标签的并行SPPE能有效提升STN提取单个人区域的效果，以最小化总损失。

Pose-guided Proposals Generator

在表3（b）中，证明PGPG在系统中也起着重要作用。在本实验中，首先从训练阶段中删除数据增强。最终的mAP降至73.0 ％。然后我们将数据增强技术与简单基线进行比较。通过抖动（jitter）人体检测器产生的边界框的位置和纵横比来形成基线，以产生大量附加的提议框。我们选择那些IoU > 0.5的ground-truth框。从我们在表3中的结果（b），我们可以看到我们的技术优于基线方法。根据分布生成培训建议可以看作是一种数据重新抽样，可以帮助模型更好地适应人类的建议。

Parametric Pose NMS

由于姿势NMS是一个独立的模块，我们可以直接从最终模型中删除它。实验结果如表3（c）所示。我们可以看到，如果删除了参数化姿势NMS，则mAP会显着下降。这是因为冗余姿势数量的增加最终会降低精确度。我们注意到之前的姿势NMS也可以在一定程度上消除冗余检测。最先进的姿势NMS算法[ 6，9]用于替换我们的PP-NMS，对结果于表3（C）。这些方案的效果不如我们的，因为缺少参数学习。在效率方面，在包含1300张图像的验证集上，[6]的姿势NMS需要62.2秒，而使用我们的算法只需1.8秒。

Upper Bound of Our Framework 上界

使用ground-truth的边界框作为人体提议框，如表3(e)，84.2mAP ,(在MSCOCO keypoints 上63.3mAP)，表示使用更强的人体检测器，我们的框架可以有更好的性能，证明RMPE框架是通用的，适合不同的人体检测器。

五、结论

在本文中，提出了一种新的区域多人姿态估计（RMPE）框架，其在准确性和效率方面明显优于最先进的多人人体姿态估计方法。当SPPE适用于人体检测器时，它验证了two-step框架的潜力，即人体检测器+ SPPE。我们的RMPE框架由三个新颖的组件组成：具有并行SPPE的对称STN，参数姿势NMS和姿态引导建议生成器（PGPG）。特别地，PGPG用于通过学习针对给定人体姿势的边界框提议的条件分布来极大地论证训练数据。由于使用对称STN和并行SPPE，SPPE变得善于处理人体本地化错误。最后，参数姿势NMS可用于减少冗余检测。