OpenAI近期动作频频,上周他们为开发者和付费的ChatGPT订阅者带来了最新的GPT-4 Turbo模型。该模型一经发布,其相较于前代的多项改进便得到了用户的广泛认可。
自周四起,更新版的GPT-4 Turbo,即gpt-4-turbo-2024-04-09,成功夺回了大型模型系统组织(LMSYS)聊天机器人竞技场的第一名位置。这是一个众包开放平台,用户可以在此对大型语言模型(LLM)进行评估。
在聊天机器人竞技场中,用户可以同时与两个LLM进行对话,并在不知道模型身份的情况下,对比它们的回复质量。经过评估后,用户可以基于自己的感受继续交流,直至他们确定哪个模型更出色、是否势均力敌,或都不尽如人意。
这些评估结果最终会用于在排行榜上对聊天机器人竞技场的82个LLM进行排名,其中包括市场上备受欢迎的Gemini Pro、Claude 3系列LLM以及Mistral-Large-2402等模型。
截至4月13日最新的聊天机器人竞技场更新数据显示,更新版的GPT-4 Turbo在总体、编码以及英语类别中均保持领先。这意味着,尽管Anthropic的Claude 3 Opus在一个月前曾短暂超越GPT-4 Turbo,但如今在总体类别中已退居次席,而较旧版本的GPT-4 Turbo——GPT-4-1106-preview,则位列第三。
这些卓越的表现可能得益于gpt-4-turbo-2024-04-09在编码、数学、逻辑推理和写作能力上的显著改进。通过一系列基准测试,该模型展示了在评估AI模型熟练度方面的卓越性能。
如果你想亲自比较gpt-4-turbo-2024-04-09与其他LLM的性能,可以访问聊天机器人竞技场网站。只需点击Arena(并排)选项,选择你想比较的模型即可。但请注意,由于你知道并排选项中模型的身份,你将无法参与投票。如果你想能够投票并使你的意见计入排行榜,你可以使用Arena(战斗)选项来比较随机模型。
当然,如果你对测试不感兴趣,想直接使用gpt-4-turbo-2024-04-09在ChatGPT中,那么只需成为ChatGPT Plus的订阅者,每月支付20美元即可。