论文解读|规模感知表示学习自底向上人体姿态估计
《HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Estimation》是一篇关于底层人体姿势估计的论文。论文的主要目的是解决底层人体姿势估计中的尺度不变性问题。
底层人体姿势估计是指从图像中检测和定位人体关键点的任务,它对于许多计算机视觉应用,如人体行为分析和姿势识别等,具有重要意义。然而,由于人体在图像中的尺度和姿势变化较大,传统的底层人体姿势估计方法往往面临尺度不变性和鲁棒性的挑战。
本文提出了一种名为HigherHRNet的方法,通过引入多尺度特征表示和自适应分辨率策略,提高了对不同尺度姿势的准确性和鲁棒性。
Introduction
这篇论文介绍了2D人体姿势估计的背景和现状,并指出了自上而下方法和自下而上方法两种不同的姿势估计方法。自上而下方法通过人体检测器检测每个人的边界框,然后将问题简化为单人姿势估计任务。
这种方法对于人体比例的变化不太敏感,但需要单独的人体检测器,并且不是端到端的系统。相比之下,自下而上方法通过预测不同解剖学关键点的热图来定位输入图像中所有人的无身份关键点,然后将它们分组为人实例,从而实现更快速和实时的姿势估计。
然而,自下而上方法在处理小尺度人体时面临两个挑战。首先是尺度变化,即在不降低对大人体性能的影响的情况下提高小人体的姿势估计性能。其次是生成高质量的高分辨率热图,以精确定位小型人群的关键点。
先前的自下而上方法主要使用单一分辨率的特征图来预测关键点的热图,忽略了尺度变化的挑战,并依赖图像金字塔来处理不同尺度的人体。然而,分辨率较低的特征图通常会受到限制。另一种方法是通过提高输入分辨率生成高分辨率的热图,从而提高小型人体的性能。然而,当输入分辨率过大时,大型人体的性能会下降。
因此,本论文的目标是以一种自然而简单的方式,通过引入多尺度特征表示和自适应分辨率策略,生成空间上更准确且具有尺度感知的热图,提高对不同尺度人体姿势的准确性和鲁棒性,同时不增加计算成本。
02
Related works
提出了尺度感知的高分辨率网络(HigherHRNet)来应对人体姿势估计中的挑战。HigherHRNet通过引入高分辨率特征金字塔模块生成高分辨率的热图。与传统的特征金字塔从1/32分辨率开始逐渐提高到1/4分辨率的方法不同,高分辨率特征金字塔直接从backbone中的最高分辨率1/4开始生成特征图,并通过反卷积进一步生成更高分辨率的特征图。
同时,为了处理尺度变化,他们提出了一种多分辨率监督策略,将不同分辨率的训练目标分配给相应的特征金字塔级别。在推理过程中,他们引入了一种简单的“多分辨率热图聚合”策略,以生成尺度感知的高分辨率热图。
他们在具有挑战性的COCO关键点检测数据集上验证了HigherHRNet的性能,并展示了出色的关键点检测结果。在COCO2017 test-dev上,HigherHRNet实现了70.5%的平均准确率(AP),无需进行任何后处理,远远超过所有现有的自下而上方法。
尤其是对于中型人体,在不降低性能的情况下,HigherHRNet相比以前最佳的自下而上方法提高了2.5%的准确率,对于大型人体提高了0.3%的准确率。
这表明HigherHRNet在解决尺度变化问题上具有显著的优势。
此外,该方法在新的CrowdPose数据集上也取得了优秀的结果,并超过了所有现有方法。在CrowdPose测试集上,HigherHRNet实现了67.6%的准确率,进一步证明了自下而上方法在拥挤场景中具有优势。
具体而言,HigherHRNet方法采用了一个自底向上的策略,首先在多个尺度上生成候选的人体关键点。然后,通过引入高分辨率分支和低分辨率分支,分别从细节和全局上下文两个方面对候选关键点进行表示学习。
高分辨率分支用于捕捉细节信息,而低分辨率分支用于捕捉全局上下文信息。最后,通过一个级联的池化和堆叠模块,将不同尺度的特征图进行聚合和融合,得到最终的姿势估计结果。
Higher-Resolution Network
本节介绍了提出的使用HigherHRNet的规模感知高分辨率表示学习。下图展示了我们方法的整体架构。我们将首先简要概述拟议的HigherHRNet,然后详细描述其组成部分。
HigherHRNet是一种尺度感知的高分辨率网络,用于解决自下而上的多人姿势估计问题中的尺度变化挑战,特别是准确定位小人体的关键点。它使用HRNet作为主干网络,并通过添加新的并行分支来实现多分辨率特征金字塔。
网络的不同阶段具有具有不同分辨率的并行分支,且先前阶段的分辨率保留在后续阶段。通过调整分辨率,可以实现不同容量的网络。在自下而上的方法中,使用最高分辨率的特征图进行预测,并通过1×1卷积预测热图和标签图。
为了解决小人体关键点定位中的混淆问题,通过反卷积模块在HRNet最高分辨率特征图的基础上生成更高分辨率的特征图,以提高热图的准确性。
使用关联嵌入方法进行关键点分组,将具有较小L2距离的关键点聚类成个体。这种方法通过关联嵌入在关键点分组方面取得了很高的准确性。
实验证明,在COCO关键点检测数据集的500张训练图像上,使用预测标签的真实检测结果可以将平均精度(AP)从59.2提高到94.0。
Results
表格1总结了在COCO2017 test-dev数据集上的结果。从结果可以看出,仅使用HRNet作为自下而上方法的基准已经是一个简单而强大的基线(64.1 AP)。我们的HRNet基准方法仅使用单一尺度测试就超过了Hourglass使用多尺度测试的表现,同时HRNet在参数和计算量(FLOPs)方面要少得多。
通过使用轻量级的反卷积模块,我们提出的HigherHRNet(66.4 AP)相比HRNet提高了2.3 AP,而参数仅略微增加了0.4%,计算量增加了23.1%。HigherHRNet与PersonLab相媲美,但参数和FLOPs仅为其50%和11%。如果进一步使用多尺度测试,我们的HigherHRNet实现了70.5 AP,大幅超越了所有现有的自下而上方法。
表2列出了在COCO2017 test-dev数据集上的自下而上和自上而下方法。HigherHRNet进一步缩小了自下而上方法和自上而下方法之间的性能差距。
05
Conlusion
提出了一种尺度感知的高分辨率网络(HigherHRNet),用于解决自下而上的多人姿势估计问题中的尺度变化挑战,尤其是对小人体关键点的准确定位。
我们发现多尺度图像金字塔和更大的输入尺寸可以部分解决问题,但这些方法计算成本较高。为了解决这个问题,他们提出了一种基于HRNet的高效高分辨率特征金字塔,并通过多分辨率监督进行训练。
在推理过程中,HigherHRNet通过多分辨率热图聚合策略,能够高效生成多分辨率和更高分辨率的热图,从而实现更准确的人体姿势估计。在具有挑战性的COCO数据集上,HigherHRNet在小人体方面的表现大大超过所有现有的自下而上方法。
来自:CVPR 2020
网址:1908.10357.pdf (arxiv.org)
标题:HigherHRNet: Scale-Aware Representation Learningfor Bottom-Up Human Pose Estimation
关于BFT白芙堂机器人
BFT(白芙堂)机器人是智能机器人一站式服务平台,能为客户提供机器人选型、培训、解决方案、在线采购、本地化定制等高性价比的一站式服务。平台产品涵盖协作机器人、工业机器人、移动机器人、SCARA机器人、服务机器人、机器人夹爪、三维机器视觉设备、3D工业相机等十余种品类,实现机器人产业链产品全覆盖,并广泛应用于工业制造、实验室自动化、智慧零售、教育科研等行业。平台已与国内外知名机器人企业达成战略合作,并拥有专业的工程师团队,能为客户提供算法及系统定制、职校教学、科研实验室平台搭建、机器人展厅定制等服务,支持一对一技术支持和二次开发。