最新发布的o3模型在ARC-AGI基准测试中取得了75.7%的成绩,在高计算配置下更是达到了87.5%,这一成果引起了人工智能研究界的广泛关注。尽管进步显著,但并不意味着已经解锁了通往人工通用智能(AGI)的路径。
ARC-AGI基准基于抽象推理语料库设计,用以评估AI系统对新任务的适应能力和流体智力表现。该基准由一系列视觉谜题组成,这些谜题要求理解物体、边界和空间关系等基本概念。人类可以凭借少量示例轻松解决这些问题,而现有AI系统则面临挑战。ARC旨在防止通过大量训练样本来“破解”,确保了评估的有效性。
ARC-AGI包含公开的训练集和评估集,分别有400个简单示例和更具挑战性的谜题,用于检验AI系统的泛化能力。此外,还有私有和半私有的测试集,各含100个谜题,用于在不泄露数据的情况下评估候选系统,并限制计算资源使用量,避免暴力求解。
此前,o1-preview及o1版本在ARC-AGI上的成绩为32%,而研究人员杰里米·伯曼采用混合策略实现了53%的成绩,这是o3之前的最佳记录。弗朗索瓦·乔莱特认为,o3的表现显示出前所未见的任务适应能力,标志着与先前LLM相比质的变化。
值得注意的是,增加计算资源并未能提升以往模型的成绩。从GPT-3到GPT-4o,经过四年时间才将成绩从0%提高到5%。关于o3架构的具体信息有限,不过确定的是,o3并非比前代大几个数量级。
o3的成功依赖于程序合成,即构建小型程序解决特定问题,并组合这些程序应对更复杂的问题。传统语言模型虽然包含丰富的内部程序,但由于缺乏组合性,难以解决超出其训练范围的谜题。
对于o3的工作原理,科学界存在分歧。乔莱特推测o3利用链式思维推理、搜索机制以及奖励模型来评估和优化解决方案。然而,也有观点认为o3可能只是强化学习扩展的结果。
乔莱特强调,ARC-AGI并不是判断是否达到AGI的标准。o3在某些简单任务上仍会失败,显示出与人类智能的根本差异。此外,o3需要外部验证器辅助推理过程,且训练过程中依赖人类标注的推理链。
一些科学家质疑OpenAI报告结果的有效性,指出模型是在ARC训练集上进行了微调。为了真正检验这些模型的抽象和推理能力,建议观察系统能否适应特定任务的变体或应用相同概念但在不同领域的推理任务。
乔莱特及其团队正开发新的基准测试,旨在挑战o3,即使在高计算预算下也可能使其得分降至30%以下,而人类无需训练即可解决95%的谜题。当创建对普通人类容易但对AI困难的任务变得不可能时,或许就是AGI到来之时。