OpenAI新研究揭示:前沿AI模型仍难匹敌人类程序员

2025年02月24日 由 neo 发表 665 0

尽管OpenAI的首席执行官Sam Altman曾预言在今年年底前,AI将能超越“低级”软件工程师,但OpenAI的最新研究却揭示了一个不同的事实:即便是最前沿的AI模型,仍难以与人类程序员相媲美。


QQ截图20250224164623

在一篇新发表的论文中,OpenAI的研究人员坦承,尽管AI技术不断进步,但现有的最先进模型在处理大多数编码任务时仍显得力不从心。为了验证这一点,研究人员开发了一个新的基准测试——SWE-Lancer,它基于自由职业者网站Upwork上的1400多个真实软件工程任务。

在这个基准测试中,OpenAI评估了三个大型语言模型(LLMs)的表现:自主研发的o1推理模型、旗舰产品GPT-4o,以及竞争对手Anthropic的Claude 3.5 Sonnet。这些模型被要求处理两类任务:一是解决具体的软件错误并实施修复,二是管理任务,即尝试从更宏观的角度做出决策。值得注意的是,这些模型在测试过程中无法访问互联网,以避免直接抄袭在线答案。

尽管这些LLMs在处理价值数十万美元的Upwork任务时展现了一定的能力,但它们只能修复一些表层的软件问题,对于大型项目中的复杂错误,它们往往难以找到或准确判断其根本原因。这些粗糙且未完成的“解决方案”虽然看似自信,但在仔细审查后往往站不住脚。

论文指出,尽管这三个LLMs在处理速度上通常“比人类更快”,但它们在理解错误的广泛性和背景方面仍存在明显不足,导致提供的解决方案不正确或不够全面。其中,Claude 3.5 Sonnet的表现略优于其他两个OpenAI模型,但其大多数答案也同样是错误的。研究人员强调,任何模型在用于现实生活中的编码任务之前,都需要达到“更高的可靠性”。

简而言之,这篇论文似乎表明,尽管这些前沿模型在处理细化任务时表现出色且速度快,但在处理真实软件工程任务方面,它们仍远不如人类工程师熟练。

尽管这些LLMs在过去几年中取得了显著进展,并有望继续发展,但它们在软件工程方面的技能仍不足以替代现实生活中的人类程序员。然而,这并没有阻止一些CEO为了追求效率而解雇人类程序员,转而使用尚未成熟的AI模型。

文章来源:https://futurism.com/openai-researchers-coding-fail
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消