Code Llama可以击败GPT-4吗?

2023年08月30日 由 samoyed 发表 503 0

几天前,Wizard LM和Phind发布了基于Code Llama的微调模型WizardCoder 34B。目前,他们都在激烈争论Phind是否使用了Wizard LM的wizardcoder风格的数据集来训练他们的V1模型。不过,Phind驳斥了这一说法,但争论仍在继续。


Code_副本


每个人都在严格评估OpenAI的HumanEval,试图在各种任务上击败GPT-4。在Code Llama发布两天后,Wizard LM推出了WizardCoder 34B,这是一个基于Code Llama的微调版本。该公司自豪地声称,WizardCoder 34B在HumanEval上的表现甚至比GPT-4、ChatGPT-3.5和Claude-2还要好,第一次尝试的合格率为73.2%。


Wizard LM似乎试图欺骗开发者,它巧妙地忽略了一个事实,即它将73.2%的分数与GPT-4的3月份版本的HumanEval评级进行了比较,而不是Wizard LM计算的8月份版本,GPT-4在8月份版本的HumanEval评级达到了82%。值得注意的是,根据GPT4-技术报告(2023/03/15),GPT-4和ChatGPT-3.5的HumanEval结果分别为67.0和48.1。


然而,Wizard LM并不是这场比赛中唯一的选手。另一家初创公司Phind也声称,他们的优化版本CodeLlama-34B和CodeLlama-34B-python在使用他们自己的Phind数据集的HumanEval上的通过率分别为67.6%和69.5%。这些数字几乎与GPT-4相当。


对GPT-4的痴迷


这清楚地表明,开源社区认为GPT-4是最终的基准。随便找一篇Meta基于LLM的研究论文,他们会将结果与基于GPT的模型进行比较,尤其是OpenAI的HumanEvals。


讽刺的是,Meta需要OpenAI,反之亦然。在“Code Llama: Open Foundation Models for Code”这篇论文中,“GPT”一词被使用了37次,另一方面,OpenAI在他们的“GPT-4 Technical Report”中没有使用“Meta”或“Llama”这个词。如果开源社区不再将自己与闭源模型进行比较,会发生什么?显然,OpenAI创建的评估指标赋予了开源模型存在的意义,否则,很难评估它们的性能和地位。


在Code Llama的研究论文中,Meta没有使用任何自己制定的评估指标。除了HumanEval,唯一使用的其他指标是谷歌创建的MBPP(Mostly Basic Python Programming)。另一件需要注意的重要事情是,GPT-4所做的不仅仅是编码任务。Meta正在为特定任务创建模型,他们试图在这些特定任务中超越GPT-4。


如果一个模型是专门为编码而设计的,那么它很有可能胜过GPT-4。Phind的表现也和GPT-4在HumanEval上的表现差不多。此外,Code Llama很有可能是使用GPT-4生成的数据集训练的。否则,开源模型要想与GPT-4竞争将是相当具有挑战性的。


HumanEval是否足够?


Reddit上一直在讨论HumanEval是否是衡量大型语言模型编码能力效率的合适参数。该讨论指出,可以解决160个Python编程问题的HumanEval还不能满足人们的要求,并且基于160个程序的单个数字并不能完全捕捉到代码模型在实际应用中的使用情况。


该讨论进一步表示,诸如代码解释、文档字符串生成、代码填充、SO问题、编写测试等因素不会被HumanEval捕获。X的一位用户表达了同样的观点,他说:“遗憾的是,Python代码的实际性能仍然远远超过GPT-4。”“我尝试了不同的、真实的例子来创建最小的flask微服务,GPT-4仍然优于所有开源LLM,”他补充说,并赞扬了GPT-4在现实世界中的使用能力。


有趣的是,Wizard LM的高级研究员 Can Xu 回答说,他会研究一下,并尝试改进这个模型。Xu说:“谢谢你指出的可能改进的地方,我们很快就会在现实生活中做出例子。”


在另一个对话中,一位X用户表示,他发现这些模型基准往往不能很好地衡量模型在实际工作流程中的表现。Phind联合创始人Michael Royzen对此回应说,这是一个早期的实验,旨在重现(并超越)论文中的“Unnatural CodeLlama”结果。他说,未来还需要做更多的工作,使这些模型能够投入生产。Royzen乐观地补充道:“在未来,我们将拥有不同Code Llama模型的混合专家,我认为这些将在现实世界的工作流程中具有竞争力。”


虽然开源模型可能还没有达到GPT-4的标准,并且正在努力追赶,但令人鼓舞的是,他们正在与社区公开讨论并承认自己的缺点。Wizard LM和Phind 在 X上的讨论是一个很好的迹象,这表明开源社区是相当敬业的。


开源社区的这种透明度是朝着“负责任的人工智能”迈出的积极一步。相比之下,OpenAI则将其商业机密隐藏起来,让每个人都猜测他们即将推出的计划。

文章来源:https://analyticsindiamag.com/code-llamas-fight-over-gpt-4/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消