Meta被指操纵AI基准测试成绩

2025年04月09日由 daydream 发表 3133 0

近日，Meta发布了Llama 4系列中的两款新模型，分别是小型模型Scout和中型模型Maverick。Meta宣称，Maverick在多个广泛报道的基准测试中超越了GPT-4o和Gemini 2.0 Flash。

微信截图_20250409102450

Maverick在AI基准测试网站LMArena上迅速攀升至第二位。在该网站上，用户会对不同系统的输出结果进行比较并投票选出最佳结果。Meta在新闻稿中强调，Maverick的ELO评分为1417，高于OpenAI的GPT-4o，仅次于Gemini 2.5 Pro。ELO评分越高，意味着该模型在与竞争对手的直接对决中获胜次数越多。

这一成就似乎使Meta的开源Llama 4成为OpenAI、Anthropic和谷歌等公司最先进闭源模型的强劲挑战者。然而，AI研究人员在仔细审查Meta的文档后发现了一些异常情况。

Meta在文档的小字部分承认，在LMArena上测试的Maverick版本与向公众提供的版本并不相同。根据Meta自己的资料，该公司为LMArena部署了一个专门“针对对话能力进行优化”的“实验性聊天版本”。TechCrunch率先报道了这一信息。

“Meta对我们政策的理解与我们期望的模型提供商行为不符，”LMArena在模型发布两天后在社交媒体平台X上发帖称。“Meta本应明确指出‘Llama-4-Maverick-03-26-Experimental’是一个针对人类偏好进行优化的定制模型。因此，我们将更新排行榜政策，以加强对公平、可复现评估的承诺，避免未来再次出现此类混淆。”

Meta的一位发言人阿什莉·加布里埃尔在一份电子邮件声明中表示：“我们尝试过各种类型的定制变体。‘Llama-4-Maverick-03-26-Experimental’是一个我们尝试过的针对聊天进行优化的版本，在LMArena上表现也很出色。”

文章来源：https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming

标签：

Meta AI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Google NotebookLM 拟推移动端应用，打破桌面端限制

下一篇 Deep Cogito携混合AI推理模型正式亮相

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来