上周,OpenAI的首个视频生成模型Sora让互联网炸开了锅。然而,与此同时,竞争对手公司的AI专家和研究人员纷纷迅速剖析和批评Sora的Transformer模型,引发了一场物理学辩论。
AI科学家加里·马库斯(Gary Marcus)是众多批评者之一,他不仅批评了Sora生成的视频的准确性,还批评了用于视频合成的生成式AI模型。
竞争对手联合起来
为了破坏Sora的扩散模型结构,Meta和谷歌对模型对物理世界的理解表示了不屑。
Meta首席执行官Yann LeCun表示,“可以根据提示生成看起来最逼真的视频并不意味着系统了解物理世界。生成与世界模型的因果预测非常不同。生成看似合理的视频空间非常大,视频生成系统只需要生成一个样本就可以成功。”
LeCun进一步解释了Sora与Meta最新的人工智能模型V-JEPA(视频联合嵌入预测架构)的区别,该模型分析视频中对象之间的交互。他说,“这就是JEPA(联合嵌入预测架构)背后的全部要点,它不是生成性的,而是在表示空间中进行预测”——这让V-JEPA的自监督模型看起来比Sora的模型更优越。
研究人员和企业家Eric Xing也支持LeCun的观点。他说:“一个能够基于理解进行推理的代理模型必须超越LLM和DM。”
Gemini Pro 1.5发布的时机再好不过了。Sora制作的视频是在Gemini 1.5 Pro上运行的,模特批评视频中的不一致之处,认为“这不是真实的场景”。
尽管专家们迅速驳斥了生成模型的能力,但模型背后的“物理学”理解却被忽视了。
事物的物理学
Sora使用与GPT模型类似的Transformer架构,OpenAI认为这个基础将“理解和模拟现实世界”,这将有助于实现AGI。虽然它没有被称为物理引擎,但有可能Unreal Engine 5生成的数据已被用于训练Sora的基础模型。
NVIDIA高级研究科学家Jim Fan通过解释数据驱动的物理引擎来澄清OpenAI的Sora模型。“Sora通过大量视频进行梯度下降,在神经参数中隐式地学习物理引擎,”他说,并将Sora称为可学习的模拟器或世界模型。
Fan还表示了他对Sora的还原论观点的不满。“我看到一些激烈的反对意见:‘Sora并没有学习物理,它只是在二维中操纵像素’。我不同意这种还原论的观点。这类似于说,‘GPT-4没有学习编程,它只是在采样字符串’。好吧,所做的只是操纵一系列整数(令牌ID)。神经网络所做的只是操纵浮点数。这不是正确的论点,”他说。
Sora正处于GPT-3时刻
最近在社交媒体上公开发表的Perplexity创始人Aravind Srinivas也支持LeCun的观点。“现实情况是,尽管Sora令人惊叹,但它仍然还没有准备好准确地模拟物理,”他说。
Fan还将Sora与2020年的“GPT-3时刻”相提并论,当时该模型需要“大量提示和照顾”。然而,这也是“作为新兴属性的上下文内学习的第一个令人信服的演示”。
有趣的是,OpenAI自己在其他人指出之前就已经指出了模型的局限性。该公司博客称,Sora可能很难准确模拟复杂场景的物理特性,因为它可能无法理解因果关系的具体实例。它也可能与提示的空间细节混淆,例如遵循特定的相机轨迹等。
当前的限制并没有影响输出生成的质量。当OpenAI去年8月收购创建了开源游戏《生物群落》(类似于《我的世界》)的数字产品公司Global Illumination时,就有了关于视频生成和通过自动代理构建模拟模型平台的一些推测。
现在,随着Sora的发布,颠覆视频游戏行业的可能性只会不断上升。如果Sora正处于GPT-3时刻,那么该模型的GPT-4阶段将是难以想象的。