近日,谷歌宣布将成立一个新团队,专注于开发能够模拟物理世界的AI模型。该团队隶属于谷歌的AI研究机构——DeepMind,并由前OpenAI视频生成器Sora的联合负责人之一蒂姆·布鲁克斯领导。布鲁克斯于去年10月加入DeepMind,并在X平台上发布了这一消息。
布鲁克斯在公告中表示,DeepMind计划打造大型生成式模型来模拟现实世界,而他正在为新团队招募人才。根据他在公告中提供的招聘信息链接,新团队将与谷歌的Gemini、Veo和Genie团队紧密合作,共同解决“关键的新问题”,并将模型计算规模推向更高水平。
Gemini是谷歌用于图像分析和文本生成等任务的旗舰AI模型系列;Veo则是谷歌自家的视频生成模型;而Genie则是谷歌在世界模型领域的尝试,即能够实时模拟游戏和3D环境的AI。谷歌去年12月预览的最新Genie模型,已能够生成种类繁多的可玩3D世界。
招聘信息中提到,鉴于在视频和多模态数据上扩展AI训练对于实现人工通用智能(AGI)至关重要,因此新团队将致力于在构建的模型基础上开发“实时交互生成”工具,并研究如何将这些模型与现有的多模态模型(如Gemini)相结合。人工通用智能通常指的是能够完成人类所能执行的任何任务的AI。
世界模型被认为在多个领域具有潜力,如视觉推理和模拟、实体代理的规划以及实时交互式娱乐等。目前,包括知名AI研究者李飞飞创立的World Labs、以色列初创公司Decart以及Odyssey在内的多家初创企业和大型科技公司都在追求世界模型技术。这些公司认为,世界模型未来可用于创建交互式媒体(如视频游戏和电影),以及运行逼真的模拟(如机器人的训练环境)。
然而,该技术也引发了创意行业从业者的复杂情绪。一项近期调查发现,像动视暴雪这样的游戏工作室正在利用AI削减成本、提高生产效率和弥补人员流失。同时,一项2024年由好莱坞动画师和漫画家工会委托的研究预测,到2026年,美国将有超过10万个电影、电视和动画行业的工作岗位受到AI技术的冲击。
一些新兴的世界模型领域创业公司,如Odyssey,已承诺将与创意专业人士合作而非取代他们。至于谷歌是否会效仿这一做法,尚待观察。
此外,版权问题仍是悬而未决的议题。一些世界模型似乎是通过训练游戏通关视频片段来开发的,这可能会使开发这些模型的公司因使用未授权视频而面临法律诉讼。尽管谷歌作为YouTube的所有者声称,其根据平台的服务条款有权使用YouTube视频进行模型训练,但该公司并未透露具体使用了哪些视频进行训练。