近期,具备超长上下文窗口的大型语言模型(LLM)引起了广泛关注。这类模型能够处理成千上万乃至数百万个标记的数据,为开发者带来了新的可能性。然而,这些模型在理解和利用大量信息方面的能力究竟如何?
谷歌DeepMind的研究人员推出了Michelangelo基准测试,旨在评估大型语言模型在长上下文中的推理能力。他们的研究结果表明,尽管当前领先模型在从大量上下文中检索信息方面有所进步,但在需要对数据结构进行推理的任务上仍然面临挑战。
随着支持极长上下文窗口的语言模型不断涌现,研究人员开发了新的基准来评价这些模型的能力。不过,以往的重点多放在检索任务上,如“大海捞针”式的测试,要求模型在庞大的文本中找到特定的信息片段。虽然模型在这类任务上的表现已显著提升,但这种能力并不等同于对整个上下文的理解和推理。
为此,DeepMind团队引入了Michelangelo,这是一种用于评估大型语言模型在长上下文推理方面的最小化、合成且未泄露的测试方法。该基准包括三个核心任务:隐含列表、多轮共指解析(MRCR)以及“我不知道”(IDK)。这些任务基于一种名为潜在结构查询(LSQ)的新框架,它能更深入地测试语言模型对于上下文理解的能力,而不仅仅是简单的信息检索。
通过Michelangelo对十种前沿语言模型进行了评估,其中包括Gemini的不同版本、GPT-4及Claude等。尽管某些模型在特定任务上表现出色,比如Gemini在MRCR上,GPT系列在隐含列表上,Claude 3.5 Sonnet在IDK上得分最高,但所有模型在面对复杂推理任务时性能均有所下降。这说明即使拥有很长的上下文窗口,现有的语言模型在处理大量信息的推理能力上仍需改进。
总体而言,Michelangelo揭示了当前语言模型在长距离推理上的局限性,并指出未来研究方向,尤其是在企业应用场景下,当模型无法依赖预训练知识并需在非常长的上下文中执行多步推理时,其性能可能会随上下文长度增加而降低。研究者计划继续扩展Michelangelo测试集,以便其他研究者也能用它来测试自己的模型。