OpenAI是否在大型数学测试中作弊?

2025年01月25日 由 佚名 发表 65 0

QQ截图20250126093800开放AI在去年12月推出了o3模型,并大肆宣扬该模型在各项基准测试中取得的卓越表现。当时,一些评论家甚至将其赞誉为几乎与AGI(人工智能通用智能)同样强大,即能在任何用户需要的任务上达到与人类相当的表现水平。

然而,金钱的影响力往往能改变一切,即便是在数学考试这样的领域也不例外。当OpenAI凭借o3模型在极具挑战性的数学基准测试FrontierMath上以惊人的25.2%的得分夺得胜利时,一个令人震惊的事实浮出水面:原来OpenAI不仅顺利通过了这项测试,还参与了测试的编写工作。

Epoch AI在FrontierMath白皮书更新的脚注中感谢了OpenAI在创建基准测试方面的支持,这一细节引起了部分爱好者的关注。更为糟糕的是,OpenAI不仅资助了FrontierMath的开发,还根据自身需求获取了测试中的问题和解决方案。Epoch AI后来透露,他们曾受聘于OpenAI,为其提供了300个数学问题及其解答。

Epoch AI在周四表示,按照委托工作的惯例,OpenAI保留了这些问题的所有权,并可访问这些问题和解答。尽管Epoch表示OpenAI事先签署了合同,承诺不会使用这些问题和答案来训练o3模型,但专家指出,获取测试材料仍然可能通过迭代调整对模型性能进行优化。

Epoch AI的副总监Tamay Besiroglu透露,OpenAI最初要求不披露双方之间的财务关系。他在一篇帖子中写道:“在o3发布之前,我们被约束不能透露合作关系。现在看来,我们应该更加努力地争取尽快向基准测试的贡献者透明化这一能力。我们的合同明确禁止我们披露关于资金来源以及OpenAI可以访问但并非全部的数据集的信息。”

Tamay表示,虽然OpenAI承诺不会使用Epoch AI的问题和解决方案,但双方并未签署法律合同来确保这一点得以执行。“我们承认OpenAI确实可以访问FrontierMath的很大一部分问题和解决方案。”他写道,“然而,我们已有口头协议,这些材料不会被用于模型训练。”

尽管这一说法听起来有些可疑,但Epoch AI的首席数学家Elliot Glazer表示,他相信OpenAI会信守承诺。他在Reddit上发帖说:“我的个人观点是,OpenAI的得分是合理的(即他们没有在数据集上进行训练),他们没有任何理由对内部基准测试的表现撒谎。”他还在Twitter上分享了一个在线辩论的链接,该辩论在在线论坛Less Wrong上进行。

QQ截图20250126094005

这一争议不仅涉及OpenAI,更指向了人工智能行业在验证进展方面存在的系统性问题。AI研究人员Louis Hunt的一项调查显示,包括Mistral 7b、谷歌的Gemma、微软的Phi-3、Meta的Llama-3和阿里巴巴的Qwen 2.5在内的其他顶级性能模型,能够逐字逐句地再现MMLU和GSM8K基准测试的6882页内容。MMLU和GSM8K都是合成基准测试,用于测量模型在多任务处理上的表现和数学熟练程度。

ZignEsGw-e1737759598631

这导致我们难以准确评估这些模型的强大程度和准确性。正如给具有照相记忆能力的学生一份即将出现在他们下一次考试中的问题和答案清单一样,我们无法确定他们是通过推理得出解决方案,还是简单地复述记忆中的答案。由于这些测试旨在证明人工智能模型具备推理能力,因此其中的争议不言而喻。

RemBrain创始人瓦西里·莫尔扎科夫警告说:“这实际上是一个非常大的问题。模型是在MMLU和GSM8K测试的指导版本上进行测试的。但事实上,基准模型可以重现测试,这意味着这些测试已经预先训练过了。”

为了确保真正的测试能力,Epoch表示未来计划采用一个由50个随机选取的问题组成的“保留集”,不向OpenAI提供这些问题。然而,创造真正独立评估的挑战仍然存在。计算机科学家Dirk Roeckmann认为,理想的测试需要一个中立的沙盒环境,这并不容易实现,而且即使这样,仍存在人为对抗性泄漏测试数据的风险。

文章来源:https://decrypt.co/302691/did-openai-cheat-big-math-test
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消