ECCV 2022 | 从虚拟信息学习可泛化的三维人体姿势预计模型

发布日期：2022-10-24 作者：康为点击：

导读

本文是对刊登于计算机视觉行业高级聚会 ECCV 2022的论文 VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual Data 的理解。该论文由北京大学王亦洲课题组与微软亚洲研发院等单位协作，通过对现有基于深度学习的一定三维人体姿势预计方式进行泛化功能研发，对于性地提出以抽象几何表示为旁边表示的方式，能够通过形成充足的虚拟信息训练三维人体姿势预计模型。试验证实，该方式明显提高了未见过情景中的泛化功能，以及不须要成对的图片和三维人体姿势真值进行训练。

论文链接：https://arxiv.org/abs/2207.09949

背景简介

在一定三维人体姿势预计任务中，不单须要预计人体各关节点相针对根节点（往往为人体骨盆节点）的位子，还须要预计根节点在三维空间中的一定位子。这是1个拥有战斗的问题，由于预计流程存在严重的歧义以及许多原因会牵连深度预计的结果，如图1所示。

图1. 小孔成像模型中的投影几何。牵连深度预计的原因含盖相机焦距、相机位姿、人的身高和姿势等。

现有的方式大多直接学习从图片到人体深度的映照联系，虽然它们能在公然信息集上获得较为好的成效，但因为信息集在相机位姿、人体姿势并且图片背景上缺少多样化，训练出的模型的泛化功能较弱。

为了解决这一问题，本工作提出了以抽象几何表示（Abstract Geometry Representation，简称AGR）为旁边表示的方式，将模型拆划为两部份进行训练。此中，能够通过形成批量充足的成对 <AGR, Pose> 信息来进行训练，进而获得泛化功能强的模型。

泛化功能研发

为了研发现有工作的泛化功能，本工作将基于深度学习的方式划为三种，分别是（1）自顶向下基于探测框大小的方式（TBS），（2）自顶向下基于图片特点的方式（TIF）并且（3）自底向上基于回归的方式（BDR），并从中各选择了1个拥有代表性的方式进行泛化功能研发。

在试验中发掘，现有的方式对图2中呈现的含盖相机位姿、图片背景并且人体姿势这3个原因都不足鲁棒，特别是当训练信息与测验信息的拍摄视角不相近时，偏差会明显加大。

图2. 牵连基于深度学习的方式的3个原因，含盖 (a) 相机位姿，(b) 图片背景并且 (c) 人体姿势。

方式概览

为了解决这一问题，本工作提出了以抽象几何表示（Abstract Geometry Representation，简称 AGR）为旁边表示的方式，VirtualPose，如图3所示。AGR 是1个通常性的概念，拿来表示许多既能够辅助修复一定三维人体姿势，同时也能够很鲁棒地从图片中被预计并且能够依据三维人体姿势形成出去的一类几何表示。在本工作的实行中，AGR 含盖了人体探测框图并且二维人体姿势热图。

AGR 将网络切分成两部份，第一部份负担对填写图片中的人进行探测和二维姿势预计，第二部份则负担依据人体探测框图并且二维人体姿势热图预计出每个人的一定三维人体姿势。这2个部份是单独训练的，第一部份只牵扯2D 任务，能够借用批量的2D 信息集进行训练，以确保模型的鲁棒性。

在第二部份中，填写的 AGR 中已然不含盖填写图片中人物外貌和背景的数据，而为了确保模型对相机位姿并且人体姿势有很强的泛化功能，本工作提出了一类训练信息形成方略。在形成训练样件时，会从人体姿势比较充足的信息集 MuCo-3DHP 中随机挑选许多人体姿势并摆放在地面上，再通过随机设置相机的位姿便可形成对应的人体探测框图并且二维人体姿势热图。

为了更好地预计一定三维人体姿势，本工作还引入了人体根节点预计网络（Root Estimation Network，简称 REN）并且人体姿势预计网络（Pose Estimation Network，简称 PEN）分别负担对人体根节点进行定位并且预计其它关节点的位子，如图3所示。

图3. 本工作提出的以抽象几何表示（AGR）为旁边表示的三维人体姿势预计方式VirtualPose的过程图。

试验论断

本工作在2个基准信息集上评价了本文的方式，VirtualPose 均到达了最好程度以及拥有强力的跨信息集泛化本领。表1展现了在 CMU-Panoptic 上的体现，评估指标是预判姿势与真正姿势的平均关节偏差值，单位为毫米。

表1. 本工作的方式与现有工作在CMU-Panoptic信息集上的定量偏差结果（越少越好）。

表2展现了 MuPoTS-3D 信息集上不同方式的结果，这类方式都只在 MuCo-3DHP 信息集并且 COCO 信息集上训练。本文的方式比其余方式获取了更好的 PCK 确切率，标明 VirtualPose 拥有较强的泛化功能，证明了以 AGR 为旁边表示并形成批量充足的 <AGR, Pose>信息进行训练的有效性。

表2. 本工作的方式与现有工作在MuPoTS-3D信息集上的定量结果（越大越好）。

图4为本文的模型在 COCO 和 MuPoTS-3D 信息集上预计的三维姿势，能够看见本工作的方式能确切地预计出每个人的三维姿势并且一定位子，对图片背景并且人的姿势都非常鲁棒。而在图中的人被遮挡如图4(b)，或人体身高与训练信息不一致如图4(c) 的状况下，模型也较易显现错误。

图4. 本工作的方式在COCO并且MuPoTS-3D信息集上的可视化结果。此中 (b) (c) 展现了落败的例子。

总结

本工作进行了对现有基于深度学习的一定三维人体姿势方式的泛化功能研发，期望此研发能启迪以后的工作多研究怎样提高人体姿势预计方式的泛化功能。其次，本工作提出了以抽象几何表示为旁边表示的方式，通过形成批量充足的成对 <AGR, Pose> 信息来训练三维人体姿势预计模型。本方式具有超越现有方式的功能，特别是训练信息和测验信息的情景差异较大的时候，这进一步呈现了本方式在自然情景中的泛化功能并且实用性。

考虑文献

[1] Tu, Hanyue, Chunyu Wang, and Wenjun Zeng. "Voxelpose: Towards multi-camera 3d human pose estimation in wild environment." European Conference on Computer Vision. Springer, Cham, 2020.

[2] Ma, Xiaoxuan, et al. "Context modeling in 3d human pose estimation: A unified perspective." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[3] Moon, Gyeongsik, Ju Yong Chang, and Kyoung Mu Lee. "Camera distance-aware top-down approach for 3d multi-person pose estimation from a single rgb image." Proceedings of the IEEE/CVF international conference on computer vision. 2019.

[4] Lin, Jiahao, and Gim Hee Lee. "Hdnet: Human depth estimation for multi-person camera-space localization." European Conference on Computer Vision. Springer, Cham, 2020.

[5] Zhen, Jianan, et al. "Smap: Single-shot multi-person absolute 3d pose estimation." European Conference on Computer Vision. Springer, Cham, 2020.

图文 | 苏嘉俊

Computer Vision and Digital Art (CVDA)

新闻分类