新LiveBench基准测试简化语言模型评估

2024年06月14日由 daydream 发表 817 0

一组研究人员在开源许可下发布了名为LiveBench的新基准，旨在简化对大型语言模型（LLM）问答能力的评估任务。该项目由风险投资支持的人工智能初创公司Abacus.AI Inc.赞助，并得到了图灵奖得主、计算机科学家Yann LeCun的参与。

微信截图_20240614114215

LiveBench的推出是为了解决研究人员在现有LLM评估基准中遇到的两大挑战。首先，它试图解决所谓的“污染”现象。其次，针对软件团队经常使用另一个LLM来评估LLM的问答能力，这可能导致准确性问题的情况，LiveBench也提出了解决方案。

AI基准是通过一系列问题来测试神经网络对特定主题知识的掌握程度的一组工具。一些基准还包括其他类型的任务，比如要求LLM调试代码文件。通过检查LLM正确执行的任务数量，研究人员可以更加深入地了解这些模型的能力和局限性。

语言模型通常通过大量公开可用的网络内容进行训练。在很多情况下，这些内容包含了来自流行AI评估基准的问题答案。如果LLM已经掌握了这些基准的答案，它可能会在评估中“作弊”，使得基准结果无法真实反映其能力。在机器学习领域，这种现象被称为“污染”。

据LiveBench的开发者表示，新发布的基准能够有效地避免在LLM评估中出现污染问题。它通过为神经网络提供在其训练数据集中不太可能包含答案的任务来实现这一点。为了采取更多预防措施，研究人员还将定期更新LiveBench的任务集合，以防止LLM最终可能获得当前问题答案的情况发生。

研究人员详细解释说：“LiveBench的设计初衷是限制潜在的污染，通过每月发布新问题，以及基于最近发布的数据集、arXiv论文、新闻文章和IMDb电影剧情概要来设置问题。”

在AI准确性评估中，基准测试中的问题答案通常不会由人工评分。相反，研究人员会借助如GPT-4这样的外部大型语言模型（LLM）来检查这些回答。然而，LiveBench的开发者认为这种方法存在局限性，因为LLM在评估其他神经网络基准响应时经常会出现错误。

研究人员进一步指出：“我们在论文中表明，对于具有挑战性的推理和数学问题，GPT-4-Turbo的通过/失败判断与真实的通过/失败判断的相关性低于60%。”此外，他们还发现LLM有时会错误地将自己的正确基准答案标记为错误。

为了解决这些挑战，LiveBench为每一个评估问题提供了预打包的答案。使用这些答案，研究人员可以准确判断LLM是否生成了正确的响应，而无需依赖外部AI系统。

研究人员也指出了LiveBench的一个局限性：“一个缺点是某些类型的问题没有正确答案，例如‘撰写一份夏威夷旅游指南’。然而，尽管这限制了可以评估的问题类型，但并不影响以这种方式判断的问题的有效性。”

当前版本的LiveBench包含了六个类别的960个问题，包括推理、数据分析、数学、编程、语言理解和指令遵循。其中一些问题是现有AI基准测试中测试内容的更具挑战性的版本。LiveBench的其他任务将根据经常更新的公共数据源（如arXiv，一个流行的研究论文存储库）中添加的信息进行定期更新。

文章来源：https://siliconangle.com/2024/06/13/researchers-develop-new-livebench-benchmark-measuring-llms-response-accuracy/

标签：

大型语言模型 LiveBench

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇雅虎在全新AI驱动的新闻应用中重生Artifact

下一篇 Android 上的 Chrome 可以在应用内大声朗读网页

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市