OpenAI基准测试揭示AI与人类软件工程师差距

2025年02月20日 由 daydream 发表 1471 0

OpenAI近期发布了一项名为SWE-Lancer的基准测试,旨在探讨AI模型能否与人类自由职业软件工程师相竞争。该测试基于1400多个真实的Upwork任务,任务金额从50美元的bug修复到32000美元的功能开发不等,旨在评估AI在实际编码工作中的能力。测试结果显示,尽管AI取得了显著进步,但仍远未达到人类工程师的水平,所得报酬仅为潜在收益的一小部分。


微信截图_20250220095522


SWE-Lancer基准测试采用真实的Upwork任务数据,涵盖了全栈工程和开发管理决策等多个方面。这些任务不仅考验了AI的编程技能,还评估了其在软件开发生命周期中的整体表现,包括用户界面优化、错误修复以及复杂系统架构设计。此外,测试还包含管理决策环节,要求AI评估并选择最佳实施方案,以模拟软件团队负责人的决策过程。


为确保评估的准确性和真实性,OpenAI邀请了专业工程师编写三重验证的端到端测试,用于评估独立的编码任务。同时,管理决策则与原始招聘经理的决策进行比较。


然而,测试结果显示,AI在实际软件开发中仍面临挑战。表现最佳的模型,即Anthropic的Claude 3.5 Sonnet,在所有任务中仅获得了400000美元左右的报酬,而总报酬潜力为1000000美元。OpenAI自家的GPT-4o以及其他模型表现更差,未能完成大多数任务。特别是在需要编写和调试代码的个体贡献者任务中,AI模型的成功率更低,凸显了当前AI在处理软件工程全面工作中的局限性。


SWE-Lancer测试的一个重要贡献在于,它尝试从经济角度量化AI在软件工程中的能力。通过将AI表现与实际报酬挂钩,OpenAI为评估AI在编码劳动力中的价值提供了更具体的衡量标准。这一方法有助于企业和政策制定者更有效地评估AI对软件就业市场的影响。


为促进进一步研究,OpenAI还开源了部分数据集,名为SWE-Lancer Diamond,其中包括价值500800美元的任务公开评估部分。研究人员可利用此数据集来测试新模型,并探索提高AI解决复杂软件工程问题能力的策略。


SWE-Lancer的发布既展示了AI在软件开发方面的快速发展,也揭示了其面临的持续挑战。尽管AI在编码能力方面取得了显著进步,从解决教科书问题到参与竞赛编程,但SWE-Lancer表明,AI距离替代人类工程师仍有很长一段路要走。该基准测试为AI的局限性提供了宝贵的现实检验,并为未来自动化软件工程的发展提供了路线图。

文章来源:https://www.maginative.com/article/openais-new-benchmark-tests-ai-models-against-real-world-software-engineering-tasks/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消