LMSYS Org发布Chatbot Arena和LLM评估数据集

2023年08月23日由 samoyed 发表 1226 0

大型模型系统组织（LMSYS Org）最近发布了大型语言模型（LLM）比较平台Chatbot Arena，用户可以从两个聊天机器人中选择更好的回答。LMSYS还发布了一个数据集，其中包含来自Arena的对话，以及在MT-Bench基准上评估LLM结果的人工注释数据集。

technology-3464633_1280

今年早些时候，LMSYS Org创建了聊天机器人Chatbot Arena，将几个不同的开源和闭源LLM(包括GPT-4和LLaMA)以“群众外包”的方式进行评估。Arena制作了一个模型排行榜，根据它们的Elo评级对它们进行排名。由于这种方法很耗时，LMSYS团队开发了一个额外的基准——MT-bench，其中包括向聊天机器人提出的80个多回合问题，聊天机器人的回答由GPT-4进行评分。

LMSYS Org表示：

(我们)已经证明，MT-Bench可以有效区分不同功能的聊天机器人。它具有可扩展性，可以提供有价值的分类分析，并为人类评委提供可解释性来验证。然而，人类评委应该谨慎使用，它仍然会出错，尤其是在给数学/推理题打分时。

LLM的兴起导致需要新的基准来衡量他们的能力，因为这些模型已经在GLUE等传统模型上取得了超人的表现。大规模多任务语言理解(MMLU)基准可以衡量LLM的知识能力，但它不能衡量LLM产生与人类偏好一致的输出的程度，而这正是ChatGPT等新模型所追求的特性。

今年早些时候，LMSYS Org发布了他们的Vicuna LLM，这是Meta LLaMA模型的一个微调版本。为了评估Vicuna，研究人员使用GPT-4作为其输出的判断标准，并声称Vicuna的能力达到了ChatGPT和Bard的“90%以上”。几个月后，LMSYS Org宣布推出ChatBot Arena，尝试对模型进行众包评估。用户将同时与两种不同的模型交互，并选择他们喜欢的模型；结果就是模型的Elo评级。在最新的行动中，LMSYS Org发布了一个包含33K Arena聊天机器人与人类对话的数据集。

在运行Arena几个月后，研究人员确定了8类用户提示，包括数学、推理和STEM知识。他们为每个类别设计了10个多回合问题，制作了MT-Bench，这是对Arena的“质量控制补充”。他们再次使用GPT-4对聊天机器人对基准提示的反应进行评分，发现GPT-4裁判与人类评审的一致率超过80%，并且与两个不同人类评审的一致率相近。在34%的情况下，GPT-4对其选择的解释甚至可以说服人类评审改变他们的选择。LMSYS Org现在发布了一个包含3300个“专家级人类配对偏好”的数据集，这些偏好由6个不同的模型生成。

机器学习研究员Nathan Lambert在Twitter上讨论了这项工作，指出MT-Bench分数“似乎是最清晰的优化基准”，因为研究人员试图创建与GPT-4等领先模型相匹配的模型。MT-Bench的合著者Wei-Lin Chiang也在推特上回答了几个用户的问题。在回答评估模型时是否正确使用模型的问题时，Chiang回答说：

这是一个很好的观点。如果有的话，我们会尽力找到官方模板……但缺乏标准和LLM对模板的敏感度确实是一个问题。

Chatbot Arena和MT-Bench评估代码可在GitHub上获得。Arena对话数据集和MT-Bench响应数据集可在Huggingface上获得，当前的LLM排行榜也可在那里找到。

文章来源：https://www.infoq.com/news/2023/08/lmsys-chatbot-leaderboard/

标签：

大型语言模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Golem Cloud：无服务器弹性计算平台

下一篇软机器人技术有望实现软材料编织3D结构

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来