大型模型系统组织(LMSYS Org)最近发布了大型语言模型(LLM)比较平台Chatbot Arena,用户可以从两个聊天机器人中选择更好的回答。LMSYS还发布了一个数据集,其中包含来自Arena的对话,以及在MT-Bench基准上评估LLM结果的人工注释数据集。
今年早些时候,LMSYS Org创建了聊天机器人Chatbot Arena,将几个不同的开源和闭源LLM(包括GPT-4和LLaMA)以“群众外包”的方式进行评估。Arena制作了一个模型排行榜,根据它们的Elo评级对它们进行排名。由于这种方法很耗时,LMSYS团队开发了一个额外的基准——MT-bench,其中包括向聊天机器人提出的80个多回合问题,聊天机器人的回答由GPT-4进行评分。
LMSYS Org表示:
(我们)已经证明,MT-Bench可以有效区分不同功能的聊天机器人。它具有可扩展性,可以提供有价值的分类分析,并为人类评委提供可解释性来验证。然而,人类评委应该谨慎使用,它仍然会出错,尤其是在给数学/推理题打分时。
LLM的兴起导致需要新的基准来衡量他们的能力,因为这些模型已经在GLUE等传统模型上取得了超人的表现。大规模多任务语言理解(MMLU)基准可以衡量LLM的知识能力,但它不能衡量LLM产生与人类偏好一致的输出的程度,而这正是ChatGPT等新模型所追求的特性。
今年早些时候,LMSYS Org发布了他们的Vicuna LLM,这是Meta LLaMA模型的一个微调版本。为了评估Vicuna,研究人员使用GPT-4作为其输出的判断标准,并声称Vicuna的能力达到了ChatGPT和Bard的“90%以上”。几个月后,LMSYS Org宣布推出ChatBot Arena,尝试对模型进行众包评估。用户将同时与两种不同的模型交互,并选择他们喜欢的模型;结果就是模型的Elo评级。在最新的行动中,LMSYS Org发布了一个包含33K Arena聊天机器人与人类对话的数据集。
在运行Arena几个月后,研究人员确定了8类用户提示,包括数学、推理和STEM知识。他们为每个类别设计了10个多回合问题,制作了MT-Bench,这是对Arena的“质量控制补充”。他们再次使用GPT-4对聊天机器人对基准提示的反应进行评分,发现GPT-4裁判与人类评审的一致率超过80%,并且与两个不同人类评审的一致率相近。在34%的情况下,GPT-4对其选择的解释甚至可以说服人类评审改变他们的选择。LMSYS Org现在发布了一个包含3300个“专家级人类配对偏好”的数据集,这些偏好由6个不同的模型生成。
机器学习研究员Nathan Lambert在Twitter上讨论了这项工作,指出MT-Bench分数“似乎是最清晰的优化基准”,因为研究人员试图创建与GPT-4等领先模型相匹配的模型。MT-Bench的合著者Wei-Lin Chiang也在推特上回答了几个用户的问题。在回答评估模型时是否正确使用模型的问题时,Chiang回答说:
这是一个很好的观点。如果有的话,我们会尽力找到官方模板……但缺乏标准和LLM对模板的敏感度确实是一个问题。
Chatbot Arena和MT-Bench评估代码可在GitHub上获得。Arena对话数据集和MT-Bench响应数据集可在Huggingface上获得,当前的LLM排行榜也可在那里找到。