近日,Meta发布新款旗舰AI模型Maverick,该模型在LM Arena测试中排名第二。LM Arena通过人类评分员比较模型输出并选择更优选项来评估模型性能。然而,有迹象表明,Meta在LM Arena上部署的Maverick版本与向开发者广泛提供的版本存在差异。
Meta在发布公告中提及,LM Arena上的Maverick为“实验性聊天版本”。同时,Llama官方网站图表显示,Meta的LM Arena测试采用“为对话能力优化的Llama 4 Maverick”进行。
此前已有报道指出,LM Arena在衡量AI模型性能方面可靠性不足。但通常情况下,AI公司不会为在LM Arena上取得更好成绩而定制或微调模型,或至少不会公开承认此类行为。
问题在于,若为适应特定基准而定制模型,却仅发布未优化的“基础版”,将导致开发者难以准确预测模型在实际应用中的表现。此举不仅具有误导性,也违背了基准测试的理想目标——尽管现有基准测试存在不足,但仍应客观反映单一模型在多项任务中的优劣势。
研究显示,LM Arena上的Maverick版本与公开下载版本存在显著差异,前者使用大量表情符号且回答冗长。
目前,已向Meta及LM Arena维护方Chatbot Arena寻求官方回应。