近日,在由伯克利大学主导团队LMSYS Org发布的针对大语言模型的基准平台Chatbot Arena上,OpenAI公司凭借其最新发布的chatgpt-4o-latest模型,成功夺回了竞技场的第一名。
Chatbot Arena是一个采用匿名、随机方式对不同大模型产品进行对抗评测的平台。它基于国际象棋等竞技游戏中广泛使用的埃洛等级分系统,通过用户投票来判定大模型产品的表现。系统每次会随机选择两个不同的大模型机器人与用户进行聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好。
此前,谷歌的实验性Gemini 1.5 Pro模型以1297分的成绩首次登顶该竞技场。然而,OpenAI并未就此罢休,迅速推出了chatgpt-4o-latest模型,并以1314分的最高分成功夺回了第一名的宝座。
chatgpt-4o-latest是GPT-4o的最新版本,其上下文窗口输入最高可达128000个词元,输出最高可达16384个词元。此次在竞技场上,该模型在数学、编程、艰难提示词、指令跟随、长提问以及Multi-Turn等多个方面都表现出了显著提高,均获得了第一名的佳绩。