ARC-AGI-2测试难倒多数AI模型

2025年03月25日由 daydream 发表 2570 0

由知名AI研究者弗朗索瓦·肖莱联合创立的非营利组织Arc Prize基金会发布了一项新的挑战性测试，旨在衡量领先AI模型的一般智能水平。这项新测试名为ARC-AGI-2，目前已让多数模型陷入困境。

微信截图_20250325092954

根据Arc Prize排行榜，像OpenAI的o1-pro和DeepSeek的R1这样的“推理”AI模型在ARC-AGI-2上的得分仅在1%至1.3%之间。而包括GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash在内的强大非推理模型，得分也仅在1%左右。

ARC-AGI测试由一系列类似谜题的题目组成，要求AI从一组不同颜色的方块中识别出视觉模式，并生成正确的“答案”网格。这些题目设计旨在迫使AI适应其之前未见过的新问题。

为了建立人类基线，Arc Prize基金会邀请了400多人参加ARC-AGI-2测试。结果显示，这些人员组成的“小组”平均答对了60%的题目，远高于任何模型的得分。

肖莱表示，与前一版测试ARC-AGI-1相比，ARC-AGI-2是衡量AI模型实际智能水平的更好指标。Arc Prize基金会的测试旨在评估AI系统能否高效地获取训练数据之外的新技能。

为了解决ARC-AGI-1中存在的“暴力求解”问题（即依赖大量计算能力寻找解决方案），ARC-AGI-2引入了新的效率指标，并要求模型即时解释模式，而非依赖记忆。

Arc Prize基金会的另一位创始人格雷格·卡姆拉特在博客文章中写道，智能不仅仅体现在解决问题或取得高分的能力上，获取和部署这些能力的效率也是一个至关重要的定义要素。核心问题不仅是“AI能否获得解决任务的技能？”，还包括“以何种效率或成本？”

值得注意的是，ARC-AGI-1在大约五年的时间里一直未被击败，直到2024年12月OpenAI发布了其高级推理模型o3。o3在评估中超越了所有其他AI模型，并与人类表现相匹敌。然而，o3在ARC-AGI-1上的性能提升是以高昂的计算成本为代价的。具体而言，首个在ARC-AGI-1上取得新高度的o3版本（o3（低））虽然在该测试上得分75.7%，但在ARC-AGI-2上仅得4%，且每项任务耗资200美元。

随着ARC-AGI-2的推出，科技行业许多人正在呼吁制定新的、未饱和的基准来衡量AI的进展。Hugging Face的联合创始人托马斯·沃尔夫最近告诉TechCrunch，AI行业缺乏足够的测试来衡量所谓人工通用智能的关键特征，包括创造力。

同时，Arc Prize基金会宣布了2025年的新Arc Prize竞赛，挑战开发者在ARC-AGI-2测试上达到85%的准确率，同时每项任务的费用不超过0.42美元。

文章来源：https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models/

标签：

人工智能测试模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇国产芯片实现AI训练成本降低20%，或对英伟达市场地位构成挑战

下一篇 OpenAI更新高级语音模式，提升AI语音助手交互体验

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来