NVIDIA通过Kaolin PyTorch库简化3D深度学习研究
2019年12月02日 由 KING 发表
988570
0
3D计算机视觉和AI的研究工作像两个并排的摩天大楼一样飞速发展。但是,它们之间的距离至今难以跨越。为了弥补这种鸿沟,NVIDIA今天发布了Kaolin,只需几步,就可以将3D模型移入神经网络领域。 Kaolin可以简化为深度学习准备3D模型的工作,从300行代码减少到只有5行。
3D模型领域正在蓬勃发展,Kaolin可以产生重大影响。在线存储库已经拥有许多3D数据集,这在一定程度上要归功于大约3千万个可捕捉3D图像的深度相机,并且现在在全球范围内,从实验室到客厅都在使用。复杂的3D数据集可以加载到机器学习框架中,无论它们如何表示或呈现。 这样的工具可以使机器人,自动驾驶汽车,医学成像和虚拟现实等领域的研究人员受益。 迄今为止,研究人员缺乏使这些模型可以与深度学习工具一起使用的良好工具,相反,他们被迫花费大量时间从头开始编写代码。
对于更广泛的受众而言,Kaolin是一个支持各种有趣的3D应用程序的软件库。想象一下它可以将您的图片拍成3D模型,然后分享出去。
加速研究的界面
Kaolin的核心是一组有效的几何函数,这些函数可以操纵3D内容。它可以包装为PyTorch张量3D数据集,实现为多边形网格,点云,有符号距离函数或体素网格。
研究人员可以将其3D数据集准备好进行深度学习,然后从Kaolin提供的备选方案中选择一个神经网络模型。该界面提供了丰富的模型存储库,包括模型和基础模型,可用于分类、分割、3D重建、超分辨率等。
实际应用程序的一些示例
3D零件分割可自动识别3D模型的不同部分,从而轻松为动画装配角色或自定义模型以生成对象的变体。
它根据受过训练的神经网络识别的产品图像来构建3D模型。反过来,可以使用3D模型搜索最适合的3D模型数据库。除了源代码,我们还将在流行的基准上发布针对这些任务的预训练模型。我们希望它们可以作为将来研究的基准,从而简化模型比较的工作。
Kaolin的模块化方法使用户轻松进行可区分的渲染,这是3D深度学习中的一项热门新技术。用户可以简单地修改接口耗材的组件,而不必从头开始编写整个渲染器。
将AI与3D结合起来
NVIDIA的研究人员表示:“我们在NVIDIA进行了大量的3D相关研究。有时,我们有时会花几天时间浏览其他人编写的开源代码,以找出最佳方法,然后将其全部放入一个库中供内部使用。 在为我们的几个项目编写样板代码之后,我们的一位实习生建议我们为PyTorch创建更全面的工具。一段时间以来,研究人员已经拥有了用于2D图像的实用程序。一种适用于3D的技术可以扩大社区范围。我们希望它可以帮助许多当前和新的3D研究人员使用AI创造惊人的事物。