来自澳大利亚国立大学、牛津大学和北京人工智能学院的研究人员开发了一款名为"3D-GPT"的新型人工智能系统,该系统可以根据用户提供的文本的描述来生成3D模型。
这篇发表在arXiv上的论文中介绍的系统与传统的3D建模工作流程相比,提供了一种更高效、更直观的创建3D资源的方式。
论文中称,3D-GPT能够“将过程性3D建模任务划分为可操作的片段,并为每个任务指派合适的代理人”。它利用多个人工智能代理人,每个代理人专注于理解文本提示的不同部分并执行建模功能。
研究人员表示:“3D-GPT将LLM(大型语言模型)定位为熟练的问题解决者,将过程性3D建模任务划分为可访问的片段,并为每个任务指派合适的代理人。"
主要的代理人包括“任务分派代理人”,用于解析文本指令;“概念化代理人”,用于添加初始描述中缺失的细节;以及“建模代理人”,用于设置参数和生成驱动3D软件(如Blender)的代码。
通过分解建模过程并分配专门的人工智能代理人,3D-GPT能够解释文本提示,增强描述的细节,并最终生成与用户设想的相符的3D资源。
论文解释道:"它可以提升简洁的初始场景描述,将其演化为详细形式,并根据后续指令动态调整文本。"
该系统在如"一个雾蒙蒙的春天早晨,露珠滋润着郁郁葱葱的草地,周围是萌发的树木"等提示上进行了测试。3D-GPT能够生成完整的具有逼真图形的3D场景,准确地反映了文本中描述的元素。
虽然图形质量尚未达到逼真的水平,但初步结果表明,这种基于代理人的方法在简化3D内容创建方面显示出潜力。模块化的架构还使得每个代理人组件都可以独立改进。
研究人员写道:"我们的实证调查证实,3D-GPT不仅能够解释和执行指令,提供可靠的结果,还能够有效地与人类设计师合作。"
通过生成用于控制现有3D软件的代码,而不是从头开始构建模型,3D-GPT提供了一个灵活的基础,可在建模技术不断发展的基础上进行进一步构建。
研究人员得出结论,他们的系统“凸显了LLM在3D建模中的潜力,为未来场景生成和动画的进一步发展提供了基本框架。"
这项研究可能彻底改变3D建模行业,使该过程更加高效和易于使用。随着我们进一步步入元宇宙时代,3D内容创建作为一个催化剂,像3D-GPT这样的工具对游戏、虚拟现实、电影和多媒体体验等各行各业的创作者和决策者都可能无比宝贵。
3D-GPT框架目前还处于早期阶段,并且存在一些限制,但它的开发标志着基于人工智能的3D建模迈出了重要一步,并为未来的发展开辟了更多可能性。