OpenAI o1 AI模型PlanBench规划能力实测

2024年09月25日由 neo 发表 435 0

PlanBench-o1-1200x673

近日，亚利桑那州立大学的一支科研团队借助PlanBench这一前沿基准测试平台，对OpenAI最新推出的o1模型在规划领域的性能进行了全面评估。这项研究不仅展示了o1模型在特定任务上取得的显著进步，同时也揭示了其在实际应用中的诸多局限与挑战。

PlanBench基准：规划能力的试金石

PlanBench，这一于2022年精心打造的评估框架，专为衡量人工智能系统在规划任务中的效能而设计。其核心包含了源自Blocksworld领域的600项挑战性任务，要求智能体按照既定顺序精准堆叠积木，以此考验其逻辑与策略规划能力。

LLM-Planner-Bench-770x448

OpenAI o1模型：高分背后的隐忧

在PlanBench的严格考验下，OpenAI的o1模型以97.8%的准确率脱颖而出，在Blocksworld标准任务中大幅领先先前的佼佼者——LLaMA 3.1 405B模型（准确率仅为62.6%）。然而，当面对更加错综复杂的“Mystery Blocksworld”加密版本时，o1虽仍以52.8%的准确率展现了一定韧性，但这一成绩背后隐藏的挑战不容忽视。

随机变体测试：性能差异显著

为进一步验证o1模型的表现是否受训练数据影响，研究团队引入了一种全新的随机变体测试。结果显示，在此条件下，o1的准确率骤降至37.3%，尽管如此，它仍显著优于其他几乎零分的竞争对手，凸显了o1模型在一定程度上的泛化能力。

复杂度挑战：性能滑坡的警示

随着任务复杂度的提升，o1模型的性能短板逐渐显现。特别是在需要20至40个规划步骤的高级任务中，其准确率从巅峰的97.8%暴跌至23.63%，表明当前模型在处理高度复杂问题时存在显著瓶颈。此外，o1在识别无解任务上的准确率也仅为27%，近半数情况下错误地生成了理论上不可执行的完整计划，进一步暴露了其决策机制的局限性。

“量子改进”与成本考量

尽管o1在基准测试中实现了所谓的“量子改进”，但其解决方案的正确性并未得到根本性保障。相比之下，传统规划算法如快速向下算法，能在更短时间内实现完美准确性，凸显了效率与准确性的双重优势。同时，研究指出，运行o1模型所需的高昂成本——接近1900美元——与经典算法几乎零成本的运行条件形成鲜明对比，引发了对于AI系统成本效益的深刻反思。

文章来源：https://the-decoder.com/researchers-put-openais-o1-through-its-paces-exposing-both-breakthroughs-and-limitations/

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Broadcom推出新一代Sian2芯片，助力AI集群高速光网络

下一篇 OpenAI明年将彻底转型营利性公司，CEO奥尔特曼可从中获得7%的股份

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来