AI如何通过观看视频学习直观物理

2025年04月28日 由 佚名 发表 70 0

这篇文章是我们对最新AI研究的报道的一部分。人类对世界的运作有一种与生俱来的理解。我们期望掉落的球会下落,物体即使被隐藏也会持续存在,固体物体不会相互穿透。这种“直观物理”是我们认知的基础。然而,在人工智能中复制这种常识仍然是一个重大挑战。

最近的一项研究由Meta AI的研究人员展示了一种特定类型的深度学习模型如何仅通过观看大量未标记的视频数据来发展对直观物理的理解。

这项工作为构建更好的世界模型提供了宝贵的见解,这是迈向更强大和通用AI的重要一步。直观物理与AI的挑战直观物理是我们对物理世界如何运作的基本理解。我们期望物体表现得可预测——它们不会突然出现或消失,不会穿过固体障碍物,也不会随意改变形状或颜色。这种理解在人类中很早就发展起来,甚至在许多动物物种中也存在。

尽管在解决编码、数学和语言生成等复杂任务方面取得了快速进展,但当前的AI系统在常识物理推理方面仍然困难重重。这说明了一个持续存在的差距,通常被称为“莫拉维克悖论”:对生物体来说微不足道的任务对AI来说可能非常困难。

有两种主要方法可以赋予AI物理理解。结构化模型通常使用手工编码的对象表示、它们的属性及其在3D空间中的关系,基本上在AI的思维中构建一个“游戏引擎”来模拟物理。这与一些理论相符,认为人类有先天的“核心知识”系统。相反的是基于像素的生成模型。这些系统采用更通用的方法,通过尝试直接在像素级别预测未来的视频帧来学习,而不依赖于任何预定义的对象或物理结构。

V-JEPA:学习物理的中间途径Meta AI的论文探讨了一种找到中间途径的第三种方法:联合嵌入预测架构(JEPAs)。JEPA是首次在2022年由Meta的首席AI科学家Yann LeCun(也是新论文的合著者)引入的。JEPA的核心思想是,预测未来的世界状态应该在模型自身学习的抽象内部表示中进行,而不是直接预测低级特征或依赖于手工编码的结构。与结构化模型不同,JEPA从数据中学习自己的表示。

该研究专注于这种架构的视频版本,称为V-JEPA。该模型通过观看视频和预测缺失部分来了解世界。关键是,V-JEPA不是在像素级别预测场景,而是在其学习的抽象表示空间中工作,例如物体如何与其环境和其他物体互动。在高层次上,V-JEPA由两个主要组件组成:编码器和预测器。编码器分析视频并提取其内容的抽象表示。在训练过程中,输入视频的部分被人为遮蔽(例如,空间和时间中的随机块,或未来帧)。预测器的任务是根据编码器提供的可见部分预测这些缺失部分的表示。通过这个过程,编码器学会捕捉视频内容和动态的基本、可预测信息,同时丢弃无关的低级细节。

这种训练方法的主要好处是它是自监督的,这意味着不需要人为标记视频帧。探究V-JEPA对世界的理解一旦V-JEPA在大量视频数据上训练完成,其学习的编码器和预测器可以用来探究其对物理的理解,而无需进一步的训练或微调。

研究人员使用了一种受发展心理学启发的方法,称为“期望违背”范式。在人类婴儿研究中,研究人员向婴儿展示两个场景:一个物理上合理,另一个不可能(例如,一个物体似乎穿过一堵实墙)。对不可能事件的更长注视时间被解释为“惊讶”,表明婴儿理解被违反的物理原理。

类似地,可以向AI模型展示一对视频——一个物理上可能,一个不可能。正如论文所述:“通过提示模型想象视频的(表示的)未来,并将其预测与视频的实际观察到的未来进行比较,我们获得了一种定量的惊讶度量,可以用来检测直观物理概念的违反。”对不可能视频的更高惊讶分数表明模型已经学习了相关的物理原理。V-JEPA与其他模型的表现比较

研究人员使用三个基准数据集测试了V-JEPA的直观物理理解,这些数据集包括旨在测试特定概念的视频,如物体持久性(物体在隐藏时继续存在)、连续性(物体沿连接路径移动)、形状和颜色恒常性、固体性(物体不会相互穿透)、重力、支撑和惯性。他们将V-JEPA与其他类别的模型进行了比较:一个代表性的像素预测模型(VideoMAEv2)和最先进的多模态大型语言模型(如Qwen2-VL和Gemini 1.5 pro),这些模型通过文本推理视频。结果令人震惊。V-JEPA在所有数据集上始终准确地区分物理上合理和不合理的视频,达到了高准确率(例如,在IntPhys上达到98%)。相比之下,像素预测模型和多模态大型语言模型的表现则更接近随机。

V-JEPA

“这些结果表明,在学习的表示空间中进行预测足以发展对直观物理的理解,”作者总结道。“这是在没有任何预定义抽象的情况下完成的,也没有在预训练或方法开发期间了解基准。”

研究人员强调,这些发现“并不意味着大型语言模型或像素预测模型无法实现直观物理理解,而只是表明即使是前沿模型,这个看似简单的任务仍然很困难。”

为什么V-JEPA成功该研究探讨了不同的设计选择如何影响V-JEPA对直观物理的掌握。研究人员发现,训练期间的特定遮蔽策略并不是最关键的因素。即使是简单的随机遮蔽也能合理地工作。关键因素似乎是在抽象表示空间中执行预测任务,而不是预测原始像素。

在数据方面,用于训练的视频数据类型很重要。主要关注运动的数据集训练的模型表现不佳。在动作中心的数据集上训练的模型取得了高于随机的结果。最佳表现来自于在教程视频上训练,即使只使用了数据集的一小部分(例如,128小时的独特视频,相当于大约一周)。

模型大小也很重要,正如在深度学习中常见的那样,较大的模型通常表现更好。然而,学习直观物理的能力并不局限于庞大的模型。一个相对较小的V-JEPA模型(1.15亿参数)仍然取得了令人印象深刻的准确率(超过85%),展示了该方法的稳健性。

局限性和前进的道路

V-JEPA violation of expectation

尽管取得了成功,V-JEPA并不完美。它在需要理解早期展示的特定情境事件的物理概念(如知道一个容器是否有假底之前看到一个物体掉入其中)或建模精确交互(如碰撞)方面存在困难。当前的模型也缺乏根据外部因素(如正在进行的动作)调整其预测的能力。它们纯粹作为被动观察者预测未来。

未来的研究可以尝试在精心策划的视频数据上训练这些模型,以模拟人类婴儿所看到的内容,这可能有助于揭示早期视觉体验如何影响对物理世界的理解。

研究人员对这一方法持乐观态度,并写道:“我们相信,潜在预测框架是构建理解物理世界的神经网络的未来方向。”


文章来源:https://bdtechtalks.com/2025/04/28/v-jepa-intuitive-physics/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消