从照片和动态图像中估计三维人体姿态和形状(HPS)是重建真实场景中人类动作的必要条件。然而,从二维图像中推断三维信息面临着诸多挑战,如深度歧义、遮挡、不寻常的服装和运动模糊等因素。即使是最先进的HPS方法也会出现错误,并且经常意识不到这些错误。HPS是一个中间任务,它提供了被下游任务消费的输出,如理解人类行为或三维图形应用。这些下游任务需要一种机制来评估HPS结果的准确性,因此,这些方法必须产生一个与HPS质量相关的不确定性(或置信度)值。
解决这种不确定性的一种方法是输出多个身体,但这仍然缺乏一个明确的不确定性度量。也有一些例外,它们可以估计身体参数的分布。一种方法是通过从身体分布中抽取样本并计算这些样本的标准差来计算不确定性。虽然这种方法是有效的,但它有两个局限性:它很慢,因为它需要多次前向网络传递来生成样本,而且它以速度换取准确性。更多的样本可以提高准确性,但也增加了计算需求。
最近,有一种方法被开发出来,可以跳过显式监督,通过训练一个网络同时输出身体参数和不确定性。受语义分割工作的启发,它使用了一个基于高斯的基础密度函数,但认识到了对于建模人体姿态需要更复杂的分布。直接估计不确定性的方法通常包括一个基础密度函数和一个尺度网络。现有的方法使用一个无条件的bDF,并且仅仅依赖于图像特征来进行尺度网络。当样本具有相似的分布时,这种方法效果很好,但在处理需要稳健的三维HPS模型的多样化数据集时表现不佳。
POCO(“POse and shape estimation with COnfidence”),一种适用于标准HPS方法的新颖框架,以解决这些挑战。POCO扩展了这些方法来估计不确定性。在单次前向传递中,POCO直接推断出Skinned Multi-Person Linear Model (SMPL)身体参数和其回归不确定性,它们与重建质量高度相关。这个框架的关键创新是双重调节策略(DCS),它增强了基础密度函数和尺度网络。该框架的概述如下图所示。
与之前的方法不同,POCO引入了一个条件向量(Cond-bDF)来对推断出的姿态误差的基础密度函数进行建模。POCO不是使用简单的单热数据源编码,而是使用图像特征进行调节,使得在多样化和复杂的图像数据集上进行更可扩展的训练成为可能。此外,POCO的作者还介绍了一种改进的用于估计HPS模型中不确定性的方法。他们使用图像特征并将网络条件化在SMPL姿态上,从而得到了更好的姿态重建和不确定性估计。他们的方法可以无缝地集成到现有的HPS模型中,提高准确性而没有任何缺点。该研究声称,这种方法在将不确定性与姿态误差相关联方面超越了最先进的方法。他们的工作中展示的结果如下所示。
这是POCO的概要,一种新颖的用于三维人体姿态和形状估计的人工智能框架。