来自Max Plank的研究人员提出一种生成式AI模型——MIME
2023年06月21日 由 Samoyed 发表
646062
0
通过人与他们的周围环境的互动,例如在一个空间里移动,触摸东西,坐在椅子上,或者睡在床上。可以推断出场景是如何设置的以及物体在哪里。MIME通过分析人们的身体动作可以创造出一个丰富的、富有想象力的、三维的环境。很多领域,包括建筑、游戏、虚拟现实和合成数据的合成,都可以从这种技术中受益。例如,AMASS有大量的人类三维运动的数据集,但这些数据集很少包括人们所处的三维环境的细节。
他们能利用AMASS为所有的运动创造可信的三维场景吗?如果可以的话,他们就可以用AMASS制作真实的人与场景互动的训练数据。他们开发了一种叫做MIME(Mining Interaction and Movement to infer 3D Environments)的新技术,该技术可以基于三维人类运动创建真实的室内三维场景,来解决这个问题。是什么让它成为可能?基本条件如下:人类在空间中的运动定义了图片中没有家具的区域。此外,这也确定三维物体与场景接触时的种类和位置;例如,一个坐着的人必须坐在椅子上、沙发上、床上等等。
来自德国Max Planck智能系统研究所的研究人员和Adobe公司创造了MIME,它是一种基于Transformer的自动回归式3D场景生成技术,可以将直觉转换为具体的形式。给出一个空的平面图和一个人的动作序列,MIME就可以预测出将与人接触的家具。此外,它还可以预见不与人接触,但是与其他物体配合,并遵守人的运动所带来的自由空间限制的物品。他们将运动划分为接触和非接触两类,以便为人类运动的三维场景创建提供条件。他们使用POSA估计潜在的接触姿势。非接触姿势将脚顶点投射到地平面上,以建立房间的自由空间,他们将其记录为二维地板图。
由POSA预测的接触顶点创建了反映接触姿势和相关三维人体模型的三维边界框。满足接触和自由空间标准的物体会自动使用这些数据作为转化器的输入。他们扩展了大规模合成场景数据集3D-FRONT,在其中创建了一个名为3D-FRONT HUMAN的新数据集来训练MIME。他们会自动将人添加到3D场景中,包括非接触的人(一系列行走动作和站立的人)和接触的人(坐着、触摸和躺着的人)。要做到这一点,他们使用来自RenderPeople扫描的静态接触姿势和来自AMASS的运动序列。
MIME在推理时为输入动作创建一个逼真的3D场景布局。他们根据这种安排从3D- future系列中选择3D模型;然后,他们根据人体位置和场景之间的几何限制来微调他们的3D位置。他们的技术产生了一个3D集合,可以支持人类的触摸和运动,同时在自由空间中放置真实的物体,与ATISS这样的纯三维场景创建系统不同。他们的方法可以开发不与人接触的物品,并且可以预测完整的场景而不是单个物体,与最近的Pose2Room形成对比。他们表明,他们的方法在已经记录的真正的运动序列上无需任何调整,如PROX-D。
来源:https://www.marktechpost.com/2023/06/20/researchers-from-max-plank-propose-mime-a-generative-ai-model-that-takes-3d-human-motion-capture-and-generates-plausible-3d-scenes-that-are-consistent-with-the-motion/