Facebook在3D领域的新进展
2019年10月30日 由 TGS 发表
931046
0
最先进的机器学习算法可以从照片中提取二维物体,并在三维中真实地呈现它们。该技术是Facebook的一个重要研究领域,适用于增强现实应用、机器人以及导航。Facebook在一篇博客中强调了其在智能内容理解方面的最新进展:他们的系统可以用来探测复杂的前景和背景物体,比如说——椅子的腿或重叠的家具。
研究人员在博客中写道:“我们的研究,是建立在利用深度学习来预测和定位图像中的物体的最新进展,以及3D形状理解的新工具和架构上面的。三维理解将在提高人工智能解释和改变现实世界的能力方面发挥核心作用,所以,它格外重要。”
在复杂庞大的研究体系中,Mesh R-CNN是极为重要的一项,它是一种能够从杂乱和闭塞物体的图像中预测三维形状的方法。
Facebook的研究人员表示,他们在Mesh R-CNN的二维目标分割系统的基础上,增加了一个网格预测分支,并使用一个包含高度优化的三维操作符的库——Torch3d,进一步加强了这个分支。
Mask R-CNN可以对图像中不同的物体进行检测和分类,然后利用前述的预测器对三维形状进行推断。在公开的Pix3d语料库上,Mesh R-CNN成功地检测出了所有类别的物体,并在家具场景中,估出了它们的完整三维形状。
Canonical 3D Pose Networks,简称C3DPO,是与Mesh R-CNN重要性不相上下的系统,它可以建立三维关键点模型,并利用二维关键点监控,实现最先进的模型重构结果。
这种重构在以前也是能够实现的,但却会受到内存限制,C3DPO体系结构的出现,完美解决了这个问题,它可以利用重建模型预测相应摄像机视点参数和三维关键点位置,辅助组件与模型一起学习,以解决在分解三维视点和形状时引入的模糊性问题。
文章最后,研究人员总结道:“计算机视觉有许多开放的研究问题,我们正在一一进行探索,借以推动该领域向前发展。随着数字世界适应并转向使用3D照片、沉浸式AR和VR体验等产品,我们需要不断推动复杂的系统,以满足新时代人们对视觉领域的想象。”