Meta被指操纵AI基准测试成绩

2025年04月09日 由 daydream 发表 3133 0

近日,Meta发布了Llama 4系列中的两款新模型,分别是小型模型Scout和中型模型Maverick。Meta宣称,Maverick在多个广泛报道的基准测试中超越了GPT-4o和Gemini 2.0 Flash。


微信截图_20250409102450


Maverick在AI基准测试网站LMArena上迅速攀升至第二位。在该网站上,用户会对不同系统的输出结果进行比较并投票选出最佳结果。Meta在新闻稿中强调,Maverick的ELO评分为1417,高于OpenAI的GPT-4o,仅次于Gemini 2.5 Pro。ELO评分越高,意味着该模型在与竞争对手的直接对决中获胜次数越多。


这一成就似乎使Meta的开源Llama 4成为OpenAI、Anthropic和谷歌等公司最先进闭源模型的强劲挑战者。然而,AI研究人员在仔细审查Meta的文档后发现了一些异常情况。


Meta在文档的小字部分承认,在LMArena上测试的Maverick版本与向公众提供的版本并不相同。根据Meta自己的资料,该公司为LMArena部署了一个专门“针对对话能力进行优化”的“实验性聊天版本”。TechCrunch率先报道了这一信息。


“Meta对我们政策的理解与我们期望的模型提供商行为不符,”LMArena在模型发布两天后在社交媒体平台X上发帖称。“Meta本应明确指出‘Llama-4-Maverick-03-26-Experimental’是一个针对人类偏好进行优化的定制模型。因此,我们将更新排行榜政策,以加强对公平、可复现评估的承诺,避免未来再次出现此类混淆。”


Meta的一位发言人阿什莉·加布里埃尔在一份电子邮件声明中表示:“我们尝试过各种类型的定制变体。‘Llama-4-Maverick-03-26-Experimental’是一个我们尝试过的针对聊天进行优化的版本,在LMArena上表现也很出色。”

文章来源:https://www.theverge.com/meta/645012/meta-llama-4-maverick-benchmarks-gaming
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消