大型语言模型(LLMs)在自然语言处理方面展现了惊人的能力,并且在几乎每个领域都有应用,其中事实问答是最常见的用例之一。不同于其他的是,事实答案可以在不同的粒度水平上正确回答。比如,“1961”和“1961年8月4日”都是对问题“巴拉克·奥巴马什么时候出生?”的正确回答。这种提供答案的多样性给准确评估这些答案带来了挑战,并导致了词汇匹配和人类评估之间的不一致。
标准的问答(QA)评估设置没有考虑到事实答案的这种特性,通常是根据一组相同粒度的参考答案来评估预测的答案。即使在不同粒度水平的情况下,也没有哪种匹配更好的概念。这通常导致对LLMs的知识的低估,这被称为知识评估差距。为了解决这个问题,来自谷歌的这篇研究论文的作者提出了GRANOLA QA,一个多粒度的QA评估设置,它不仅根据准确性,而且根据信息量来评估答案。
准确性是基于将答案与GRANOLA答案中的任何一个进行匹配来衡量的,而信息量是通过使用适当的加权方案与细粒度的答案进行匹配来衡量的。GRANOLA的答案生成过程有两个步骤——首先,使用外部知识图(KG)获取答案实体以及问题中出现的任何实体的描述,然后,使用零样本提示让LLM创建一个不同粒度水平的答案的有序列表。
研究人员使用WikiData来验证答案的正确性。对于信息量,检查响应是否是问题的平凡答案,即它是否可以仅基于问题模板生成。最后,对于粒度,研究人员评估响应是否比其前面的答案更粗略。
研究人员还开发了GRANOLA-EQ,它是ENTITYQUESTIONS数据集的多粒度版本,并使用不同的解码方法评估了模型,包括一个被称为DRAG的新颖的解码策略,它鼓励LLMs根据它们的不确定性水平来调整它们的响应的粒度水平。结果显示,LLMs倾向于生成具体的答案,但往往是不正确的。相反,当DRAG在多粒度答案上进行评估时,它显示了平均准确性的20个百分点的提高,这对于稀有实体来说更加明显。
作者还强调了他们工作的一些局限性。他们用多粒度答案来增强QA基准的方法,依赖于从原始的QA对中提取实体,并将它们与它们的知识图条目进行匹配。这个过程在结构不太规范的数据集的情况下可能更加复杂。另外,为了更好的评估,区分基于真实知识而不是单纯的猜测的正确答案是必不可少的。
总之,这篇论文的作者强调了,生成比它们的知识支持更详细的响应是LLMs中事实错误的主要来源。他们引入了GRANOLA QA,GRANOLA EQ和DRAG,都是为了使这些模型的响应的粒度与其不确定性水平保持一致。实验表明,在评估和解码过程中考虑粒度水平,可以显著提高模型的准确性。尽管存在一些局限性,但他们的工作为未来的研究扩展提供了一个良好的起点。