研究声称ChatGPT正在失去能力,但一些专家并不相信
2023年07月20日 由 Susan 发表
728394
0
7月18日,斯坦福大学和加利福尼亚大学伯克利分校的研究人员发表了一篇研究论文,声称展示了GPT-4在时间上输出结果的变化。这篇论文引发了一个普遍但未经证实的观点,即这种人工智能语言模型在过去几个月中在编码和组合任务方面变得更糟。一些专家对结果表示怀疑,但他们表示,确定性的缺乏指向了OpenAI在如何处理模型发布方面存在较大的问题。
在一篇名为《ChatGPT的行为随时间变化如何?》的研究中,Lingjiao Chen、Matei Zaharia和James Zou在arXiv上发表,对OpenAI的大型语言模型(LLM),特别是GPT-3.5和GPT-4的持续性能提出了质疑。他们利用API接入测试了这些模型的2023年3月和6月版本,针对数学问题解决、回答敏感问题、代码生成和视觉推理等任务进行了测试。最值得注意的是,据报道,GPT-4在从3月的97.6%准确率剧降至6月的仅2.4%的情况下,显著降低了对质数的识别能力。然而,奇怪的是,GPT-3.5在同一时期显示出了更好的性能。
这项研究紧随人们频繁抱怨GPT-4在过去几个月的性能主观上出现下降之后。关于为什么会出现这种状况,有一些普遍的理论,包括OpenAI通过"提炼"模型来减少计算开销,以加快输出速度和节省GPU资源,进行额外的微调(额外训练)以减少可能造成意外效果的有害输出,以及一系列无法证实的阴谋论,比如OpenAI减少了GPT-4的编码能力,以便更多人购买GitHub Copilot。
与此同时,OpenAI始终否认了有关GPT-4能力下降的任何指责。就在上周四,OpenAI产品副总裁彼得·韦林德(Peter Welinder)在推特上表示:“不,我们并没有让GPT-4变蠢。恰恰相反,我们使每个新版本比上一个更加智能。当前的假设是:当您更加频繁地使用它时,您会开始注意到之前没有注意到的问题。”
虽然这项新研究似乎像是一根冒烟的枪,来证明那些对GPT-4持怀疑态度的人的直觉,但其他人认为事情没有那么简单。普林斯顿大学的计算机科学教授阿尔文德·纳拉亚南认为,这项研究的发现并不能确凿地证明GPT-4性能的下降,而其结果可能与OpenAI所进行的微调调整相一致。例如,在评估代码生成能力方面,他批评该研究评估的并不是代码正确性,而是代码执行的即时性。
“他们报告的变化是较新的GPT-4在输出中添加了非代码文本。他们没有评估代码的正确性(很奇怪),”他在推特上写道。“他们只是检查代码是否可以直接执行。因此,较新的模型试图更有帮助反而对它不利。
人工智能研究员西蒙·威利森(Simon Willison)也对该论文的结论提出了质疑。他告诉Ars:“我觉得它不太令人信服。他们批评的相当一部分内容涉及代码输出是否被包裹在Markdown的反引号中。”他还对该论文的方法论存在其他问题。“在我看来,他们在所有情况下都运行了0.1的温度值,”他说。“这使得结果稍微更加确定性,但很少有真实世界的提示会以那样的温度运行,所以我认为这对于模型的真实世界应用场景并没有太多启示。”
到目前为止,威利森认为对GPT-4能力的任何感知变化都来自于对LLM的新奇性消退。毕竟,GPT-4在推出后不久引发了一波AGI恐慌,并曾经经受过能否接管世界的测试。现在,随着这项技术变得更加平凡,其缺陷似乎变得更加明显。
威利森告诉Ars:“当GPT-4出现时,我们都觉得LLM能够做到的任何事情都是神奇的。但现在这种感觉已经消失了,人们正试图用它们进行实际工作,所以它们的缺陷变得更加明显,使它们似乎比起初看起来更无能。”
目前,OpenAI已经注意到了这项新研究,并表示他们正在监控有关GPT-4能力下降的报告。OpenAI的开发者关系负责人Logan Kilpatrick在周三发推表示:“团队已经注意到了所报告的退化情况,并正在对此进行调查。”
OpenAI是非常封闭的
虽然Chen,Zaharia和Zou的论文可能并不完美,但Willison同情准确客观地测量语言模型的困难。批评者一次又一次地指出OpenAI目前对人工智能的封闭方法,对于GPT-4,它没有透露培训材料,源代码,神经网络权重的来源,甚至没有描述其架构的论文。
对于像 GPT-4 这样的封闭式黑匣子模型,研究人员在黑暗中磕磕绊绊地试图定义可能具有其他未知组件的系统的属性,例如安全过滤器,或者最近传闻的八个“专家混合”模型在 GPT-4 的引擎盖下协同工作。此外,模型可能随时更改,恕不另行通知。
“人工智能模型提供商正在落后于传统的软件基础设施最佳实践,”作家和未来学家丹尼尔杰弗里斯说,他认为人工智能供应商在推出更改时需要继续长期支持旧版本的模型,“以便软件开发人员可以在可靠的工件之上构建,而不是在没有警告的情况下一夜之间改变的工件。
解决这种开发人员不稳定性和研究人员不确定性的一种解决方案可能是开源或源代码可用的模型,例如 Meta 的 Llama。通过广泛分布的权重文件(模型神经网络数据的核心),这些模型可以让研究人员从相同的基线工作,并随着时间的推移提供可重复的结果,而无需公司(如OpenAI)突然交换模型或通过API撤销访问权限。
沿着这些思路,Hugging Face的AI研究员Sasha Luccioni博士也认为OpenAI的不透明性是有问题的。“闭源模型的任何结果都是不可重复和可验证的,因此,从科学的角度来看,我们正在比较浣熊和松鼠,”她告诉Ars。“科学家不应该持续监控部署的LLM。模型创建者需要提供对基础模型的访问权限,至少出于审计目的。
沿着这些思路,Hugging Face的人工智能研究员Sasha Luccioni博士也认为OpenAI的不透明性是有问题的。“闭源模型的任何结果都是不可重复和可验证的,因此,从科学的角度来看,我们正在比较浣熊和松鼠,”她告诉Ars。“科学家不应该持续监控部署的LLM。模型创建者需要提供对基础模型的访问权限,至少出于审计目的。
来源:https://arstechnica.com/information-technology/2023/07/is-chatgpt-getting-worse-over-time-study-claims-yes-but-others-arent-sure/