Meta新AI模型基准测试或存误导性

2025年04月07日 由 daydream 发表 2348 0

近日,Meta发布新款旗舰AI模型Maverick,该模型在LM Arena测试中排名第二。LM Arena通过人类评分员比较模型输出并选择更优选项来评估模型性能。然而,有迹象表明,Meta在LM Arena上部署的Maverick版本与向开发者广泛提供的版本存在差异。


微信截图_20250407101146


Meta在发布公告中提及,LM Arena上的Maverick为“实验性聊天版本”。同时,Llama官方网站图表显示,Meta的LM Arena测试采用“为对话能力优化的Llama 4 Maverick”进行。


此前已有报道指出,LM Arena在衡量AI模型性能方面可靠性不足。但通常情况下,AI公司不会为在LM Arena上取得更好成绩而定制或微调模型,或至少不会公开承认此类行为。


问题在于,若为适应特定基准而定制模型,却仅发布未优化的“基础版”,将导致开发者难以准确预测模型在实际应用中的表现。此举不仅具有误导性,也违背了基准测试的理想目标——尽管现有基准测试存在不足,但仍应客观反映单一模型在多项任务中的优劣势。


研究显示,LM Arena上的Maverick版本与公开下载版本存在显著差异,前者使用大量表情符号且回答冗长。


目前,已向Meta及LM Arena维护方Chatbot Arena寻求官方回应。

文章来源:https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消