ARC-AGI-2测试难倒多数AI模型

2025年03月25日 由 daydream 发表 2570 0

由知名AI研究者弗朗索瓦·肖莱联合创立的非营利组织Arc Prize基金会发布了一项新的挑战性测试,旨在衡量领先AI模型的一般智能水平。这项新测试名为ARC-AGI-2,目前已让多数模型陷入困境。


微信截图_20250325092954


根据Arc Prize排行榜,像OpenAI的o1-pro和DeepSeek的R1这样的“推理”AI模型在ARC-AGI-2上的得分仅在1%至1.3%之间。而包括GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash在内的强大非推理模型,得分也仅在1%左右。


ARC-AGI测试由一系列类似谜题的题目组成,要求AI从一组不同颜色的方块中识别出视觉模式,并生成正确的“答案”网格。这些题目设计旨在迫使AI适应其之前未见过的新问题。


为了建立人类基线,Arc Prize基金会邀请了400多人参加ARC-AGI-2测试。结果显示,这些人员组成的“小组”平均答对了60%的题目,远高于任何模型的得分。


肖莱表示,与前一版测试ARC-AGI-1相比,ARC-AGI-2是衡量AI模型实际智能水平的更好指标。Arc Prize基金会的测试旨在评估AI系统能否高效地获取训练数据之外的新技能。


为了解决ARC-AGI-1中存在的“暴力求解”问题(即依赖大量计算能力寻找解决方案),ARC-AGI-2引入了新的效率指标,并要求模型即时解释模式,而非依赖记忆。


Arc Prize基金会的另一位创始人格雷格·卡姆拉特在博客文章中写道,智能不仅仅体现在解决问题或取得高分的能力上,获取和部署这些能力的效率也是一个至关重要的定义要素。核心问题不仅是“AI能否获得解决任务的技能?”,还包括“以何种效率或成本?”


值得注意的是,ARC-AGI-1在大约五年的时间里一直未被击败,直到2024年12月OpenAI发布了其高级推理模型o3。o3在评估中超越了所有其他AI模型,并与人类表现相匹敌。然而,o3在ARC-AGI-1上的性能提升是以高昂的计算成本为代价的。具体而言,首个在ARC-AGI-1上取得新高度的o3版本(o3(低))虽然在该测试上得分75.7%,但在ARC-AGI-2上仅得4%,且每项任务耗资200美元。


随着ARC-AGI-2的推出,科技行业许多人正在呼吁制定新的、未饱和的基准来衡量AI的进展。Hugging Face的联合创始人托马斯·沃尔夫最近告诉TechCrunch,AI行业缺乏足够的测试来衡量所谓人工通用智能的关键特征,包括创造力。


同时,Arc Prize基金会宣布了2025年的新Arc Prize竞赛,挑战开发者在ARC-AGI-2测试上达到85%的准确率,同时每项任务的费用不超过0.42美元。

文章来源:https://techcrunch.com/2025/03/24/a-new-challenging-agi-test-stumps-most-ai-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消