LLM的基准测试往往存在错误,这意味着它们不是评估LLM的可靠方法。例如,训练数据污染是基准测试的一个突出问题。像GLUE、SQuAD和Winograd Schema这样的基准测试通过提供精心设计的输入来使模型表现得更好。然而,构建这些模型的开发者们试图通过在Hugging Face的排行榜上用不同基准测试进行评估来在榜单上获得高排名。
这些基准测试存在几个问题,从而干扰了对AI模型的评估。一个原因是它们往往范围过窄,另一个原因是它们往往不代表实际使用场景。用于训练LLM的数据集通常不能代表它们在实际应用中会遇到的数据。这可能导致LLM在基准测试中表现良好,但在实际应用中表现差。
MMLU(大规模多任务语言理解)被认为是最全面的基准测试。它要求语言模型以单个字符的形式(如A、B、C或D)立即给出答案。这对于复杂的问题可能有挑战性。
YouTube上的一个开发者解释了他在MMLU测试问题中发现了多个错误。“我真的很震惊,有无数个事实错误,我会试图追踪每个错误的来源并查看原始来源。问题不仅仅出在一个来源上,而是在很多来源上。”
这些错误不可避免地影响了结果。在某些情况下,这些错误可能导致结果发生高达2%的变化,这在基准测试中是明显的差异。他进一步解释了如何改变方法以使模型在提供答案之前可以“思考”一会儿,以显著提高性能。将最有可能的答案作为最终答案并不总是最佳方法。相反,考虑多个可能的答案并选择最常见的答案效果更好。
他们通过为某些主题创建特殊例子来帮助模型更好地理解,在选择最常见的答案之前检查多个可能的答案,这样可以通过思维链过程获得好的结果。结果,他们在MMLU基准测试中获得了88.4%的成绩,尽管是非官方的,打破了OpenAI86.4%的记录。而Meta的LLaMA则恰恰相反,其得分比论文中公布的得分低得多。
不只有MMLU存在这种情况。去年的某个时候,对常识自然语义推理(HellaSwag)的基准测试发现其中36%的行存在错误。
HumanEval只评估根据文档字符串创建的程序是否能够正确运行,并且具有非常有限的功能。它包含了164个原始的编程问题,并通常被认为是评估语言模型在Python方面能力的指标。然而,数据集或LLM的污染可能导致对整个模型的不正确分析。
清华大学、俄亥俄州立大学和加州大学伯克利分校的一组研究人员介绍了AgentBench,这是一个多维基准测试,用于评估LLM作为代理在各种环境中的表现。这与大多数现有的基准测试不同,大多数现有的基准测试专注于特定的环境,这限制了它们对LLM在各种应用场景中进行全面评估的能力。
认识到不同的用例需要单独的基准测试,公司提供了评估大型语言模型的解决方案。
有效的基准测试对于构建AI模型至关重要,它指导研究人员了解系统的工作原理和问题所在。基准测试应该关注为语言模型提供洞察力,而不是试图宣称“通用性”。
一篇论文解释道:“基准测试不是为了赢得比赛,而是为了了解它的性能——我们越能重新构建、情境化和适当地确定这些数据集的范围,它们就在更好的算法开发和其他评估方法中变得更优秀。”
Reddit上的一个讨论主题涉及修复这些问题的多种方法。
基准测试应该被视为在模型发布之后对其工作进行比较的测试,而不是某种目标。这种观点被Hugging Face或Kaggle等不同托管平台的排行榜普遍接受。排名较高的模型的问题通常在于它们可能过于针对测试特定的示例或问题,这并不能保证它们在评估之外表现良好。