近日,Meta发布了Llama 4系列中的两款新模型,分别是小型模型Scout和中型模型Maverick。Meta宣称,Maverick在多个广泛报道的基准测试中超越了GPT-4o和Gemini 2.0 Flash。
Maverick在AI基准测试网站LMArena上迅速攀升至第二位。在该网站上,用户会对不同系统的输出结果进行比较并投票选出最佳结果。Meta在新闻稿中强调,Maverick的ELO评分为1417,高于OpenAI的GPT-4o,仅次于Gemini 2.5 Pro。ELO评分越高,意味着该模型在与竞争对手的直接对决中获胜次数越多。
这一成就似乎使Meta的开源Llama 4成为OpenAI、Anthropic和谷歌等公司最先进闭源模型的强劲挑战者。然而,AI研究人员在仔细审查Meta的文档后发现了一些异常情况。
Meta在文档的小字部分承认,在LMArena上测试的Maverick版本与向公众提供的版本并不相同。根据Meta自己的资料,该公司为LMArena部署了一个专门“针对对话能力进行优化”的“实验性聊天版本”。TechCrunch率先报道了这一信息。
“Meta对我们政策的理解与我们期望的模型提供商行为不符,”LMArena在模型发布两天后在社交媒体平台X上发帖称。“Meta本应明确指出‘Llama-4-Maverick-03-26-Experimental’是一个针对人类偏好进行优化的定制模型。因此,我们将更新排行榜政策,以加强对公平、可复现评估的承诺,避免未来再次出现此类混淆。”
Meta的一位发言人阿什莉·加布里埃尔在一份电子邮件声明中表示:“我们尝试过各种类型的定制变体。‘Llama-4-Maverick-03-26-Experimental’是一个我们尝试过的针对聊天进行优化的版本,在LMArena上表现也很出色。”