一组研究人员在开源许可下发布了名为LiveBench的新基准,旨在简化对大型语言模型(LLM)问答能力的评估任务。该项目由风险投资支持的人工智能初创公司Abacus.AI Inc.赞助,并得到了图灵奖得主、计算机科学家Yann LeCun的参与。
LiveBench的推出是为了解决研究人员在现有LLM评估基准中遇到的两大挑战。首先,它试图解决所谓的“污染”现象。其次,针对软件团队经常使用另一个LLM来评估LLM的问答能力,这可能导致准确性问题的情况,LiveBench也提出了解决方案。
AI基准是通过一系列问题来测试神经网络对特定主题知识的掌握程度的一组工具。一些基准还包括其他类型的任务,比如要求LLM调试代码文件。通过检查LLM正确执行的任务数量,研究人员可以更加深入地了解这些模型的能力和局限性。
语言模型通常通过大量公开可用的网络内容进行训练。在很多情况下,这些内容包含了来自流行AI评估基准的问题答案。如果LLM已经掌握了这些基准的答案,它可能会在评估中“作弊”,使得基准结果无法真实反映其能力。在机器学习领域,这种现象被称为“污染”。
据LiveBench的开发者表示,新发布的基准能够有效地避免在LLM评估中出现污染问题。它通过为神经网络提供在其训练数据集中不太可能包含答案的任务来实现这一点。为了采取更多预防措施,研究人员还将定期更新LiveBench的任务集合,以防止LLM最终可能获得当前问题答案的情况发生。
研究人员详细解释说:“LiveBench的设计初衷是限制潜在的污染,通过每月发布新问题,以及基于最近发布的数据集、arXiv论文、新闻文章和IMDb电影剧情概要来设置问题。”
在AI准确性评估中,基准测试中的问题答案通常不会由人工评分。相反,研究人员会借助如GPT-4这样的外部大型语言模型(LLM)来检查这些回答。然而,LiveBench的开发者认为这种方法存在局限性,因为LLM在评估其他神经网络基准响应时经常会出现错误。
研究人员进一步指出:“我们在论文中表明,对于具有挑战性的推理和数学问题,GPT-4-Turbo的通过/失败判断与真实的通过/失败判断的相关性低于60%。”此外,他们还发现LLM有时会错误地将自己的正确基准答案标记为错误。
为了解决这些挑战,LiveBench为每一个评估问题提供了预打包的答案。使用这些答案,研究人员可以准确判断LLM是否生成了正确的响应,而无需依赖外部AI系统。
研究人员也指出了LiveBench的一个局限性:“一个缺点是某些类型的问题没有正确答案,例如‘撰写一份夏威夷旅游指南’。然而,尽管这限制了可以评估的问题类型,但并不影响以这种方式判断的问题的有效性。”
当前版本的LiveBench包含了六个类别的960个问题,包括推理、数据分析、数学、编程、语言理解和指令遵循。其中一些问题是现有AI基准测试中测试内容的更具挑战性的版本。LiveBench的其他任务将根据经常更新的公共数据源(如arXiv,一个流行的研究论文存储库)中添加的信息进行定期更新。