OpenAI o1 AI模型PlanBench规划能力实测

2024年09月25日 由 neo 发表 176 0

PlanBench-o1-1200x673

近日,亚利桑那州立大学的一支科研团队借助PlanBench这一前沿基准测试平台,对OpenAI最新推出的o1模型在规划领域的性能进行了全面评估。这项研究不仅展示了o1模型在特定任务上取得的显著进步,同时也揭示了其在实际应用中的诸多局限与挑战。

PlanBench基准:规划能力的试金石

PlanBench,这一于2022年精心打造的评估框架,专为衡量人工智能系统在规划任务中的效能而设计。其核心包含了源自Blocksworld领域的600项挑战性任务,要求智能体按照既定顺序精准堆叠积木,以此考验其逻辑与策略规划能力。

LLM-Planner-Bench-770x448

OpenAI o1模型:高分背后的隐忧

在PlanBench的严格考验下,OpenAI的o1模型以97.8%的准确率脱颖而出,在Blocksworld标准任务中大幅领先先前的佼佼者——LLaMA 3.1 405B模型(准确率仅为62.6%)。然而,当面对更加错综复杂的“Mystery Blocksworld”加密版本时,o1虽仍以52.8%的准确率展现了一定韧性,但这一成绩背后隐藏的挑战不容忽视。

随机变体测试:性能差异显著

为进一步验证o1模型的表现是否受训练数据影响,研究团队引入了一种全新的随机变体测试。结果显示,在此条件下,o1的准确率骤降至37.3%,尽管如此,它仍显著优于其他几乎零分的竞争对手,凸显了o1模型在一定程度上的泛化能力。

复杂度挑战:性能滑坡的警示

随着任务复杂度的提升,o1模型的性能短板逐渐显现。特别是在需要20至40个规划步骤的高级任务中,其准确率从巅峰的97.8%暴跌至23.63%,表明当前模型在处理高度复杂问题时存在显著瓶颈。此外,o1在识别无解任务上的准确率也仅为27%,近半数情况下错误地生成了理论上不可执行的完整计划,进一步暴露了其决策机制的局限性。

“量子改进”与成本考量

尽管o1在基准测试中实现了所谓的“量子改进”,但其解决方案的正确性并未得到根本性保障。相比之下,传统规划算法如快速向下算法,能在更短时间内实现完美准确性,凸显了效率与准确性的双重优势。同时,研究指出,运行o1模型所需的高昂成本——接近1900美元——与经典算法几乎零成本的运行条件形成鲜明对比,引发了对于AI系统成本效益的深刻反思。

文章来源:https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消