在快速发展的大规模计算领域,有一个具有颠覆性影响力的突破即将震撼3D可视化领域。
Adobe研究院和澳大利亚国立大学(ANU)宣布了第一个能够通过单个2D图像生成3D图像的人工智能模型。
研究人员表示,他们的新算法在训练大规模图像样本的基础上,能够在几秒钟内生成这样的3D图像,这将彻底改变3D模型的创建方式。
ANU工程、计算和控制学院的前研究生、现任Adobe实习生洪一聪表示,他们的大型重建模型(LRM)基于一个高度可扩展的神经网络,包含100万个数据集和5亿个参数。这些数据集包括图像、3D形状和视频。
该项目报告的首席作者洪一聪说:“高容量模型和大规模训练数据的结合使我们的模型具有高度的泛化能力,并可以从各种测试输入中生成高质量的3D重建效果。据我们所知,我们的LRM是第一个大规模3D重建模型。”
增强现实和虚拟现实系统、游戏、影视动画和工业设计等领域预计将充分利用这一变革性技术。
早期的3D成像软件仅在特定的主题类别中表现良好,有预先建立的形状。洪一聪解释说,之后在图像生成方面取得了进展的是一些程序,如DALL-E和稳定扩散(Stable Diffusion),它们利用了2D扩散模型的显著泛化能力来实现多视角效果。然而,这些程序的结果仅限于经过预训练的2D生成模型。
其他系统通过针对形状进行优化来获得令人印象深刻的结果,但洪一聪说这些系统“常常速度较慢,不切实际”。
洪一聪表示,利用大规模数据最大化下一个单词预测任务中的自然语言模型的发展,启发了他们团队提出一个问题:“是否可能从单个图像中学习生成一个对象的通用3D先验知识?”
他们的答案是“是”。
洪一聪说:“LRM可以从现实世界中捕捉的各种图像以及生成模型创建的图像中重建高保真度的3D形状。由于不需要后期优化,LRM在下游应用中也是一种高度实用的解决方案,可以在仅五秒钟内生成3D形状。”
该程序的成功在于它能够利用其数百万个图像参数的数据库,并预测神经辐射场(NeRF)。这意味着它能够根据仅有的2D图片(即使分辨率较低)生成逼真的3D图像。NeRF具有图像合成、目标检测和图像分割的功能。
60年前,第一个允许用户生成和操作简单3D形状的计算机程序诞生。斯坦福大学的伊凡·S·苏瑟兰在他的博士论文中设计了Sketchpad,该程序总共有64K的内存。
几十年来,3D程序得到了飞速发展,包括AutoCAD、3D Studio、SoftImage 3D、RenderMan和Maya等软件。