大型语言模型(LLM)一个众所周知的问题是容易生成错误或无意义的输出,通常被称为“幻觉”。尽管大量研究已从用户角度分析了这些错误,但一项新研究,则深入探讨了LLM的内部工作机制,并发现这些模型对真实性的理解比先前认为的要深刻得多。
“幻觉”一词缺乏普遍接受的定义,涵盖了LLM的各种错误。在这项研究中,研究人员采用了广义解释,将幻觉视为LLM产生的所有错误,包括事实不准确、偏见、常识推理失败以及其他现实世界中的错误。
过去大多数关于幻觉的研究都集中在分析LLM的外部行为以及用户如何感知这些错误上。然而,这些方法对于了解错误如何在模型内部编码和处理提供的信息有限。
一些研究人员已探索了LLM的内部表征,并暗示它们编码了真实性的信号。但此前的研究大多侧重于考察模型生成的最后一个标记或提示中的最后一个标记。由于LLM通常生成长文本回复,这种做法可能会遗漏关键细节。
这项新研究采用了不同的方法。研究人员没有仅关注最终输出,而是分析了“精确答案标记”,即如果修改这些回复标记,将会改变答案的正确性。
研究人员在四种不同版本的Mistral 7B和Llama 2模型上进行了实验,涵盖了10个数据集,涉及问答、自然语言推理、数学问题解决和情绪分析等多种任务。他们允许模型生成不受限制的回复,以模拟现实世界的使用情况。实验结果表明,真实性信息集中在精确答案标记中。
为预测幻觉,研究人员训练了分类器模型,即“探测分类器”,根据LLM的内部激活来预测生成输出的真实性相关特征。研究人员发现,基于精确答案标记训练分类器能显著提高错误检测能力。
研究人员还调查了在一个数据集上训练的探测分类器是否能在其他数据集上检测错误。他们发现,探测分类器不具备跨不同任务的泛化能力。相反,它们表现出“技能特异性”的真实性,意味着它们可以在需要类似技能的任务(如事实检索或常识推理)内泛化,但不能在需要不同技能的任务(如情绪分析)间泛化。
进一步的实验表明,这些探测分类器不仅能够预测错误的存在,还能预测模型可能犯的错误类型。这表明LLM表征包含了有关其可能失败方式的具体信息,这有助于开发有针对性的缓解策略。
最后,研究人员调查了LLM激活中编码的内部真实性信号如何与其外部行为保持一致。他们发现,在某些情况下存在令人惊讶的不一致:模型的内部激活可能正确识别了正确答案,但它却持续生成了错误的回复。
这一发现表明,当前仅依赖LLM最终输出的评估方法可能无法准确反映其真实能力。它提出了一个可能性,即通过更好地理解和利用LLM的内部知识,可能能够解锁其潜在能力并显著减少错误。
该研究的发现有助于设计更好的幻觉缓解系统。然而,其使用的方法需要访问LLM的内部表征,这在主要程度上仅对开源模型可行。
尽管如此,这些发现对该领域具有更广泛的影响。通过分析内部激活所获得的见解,有助于开发更有效的错误检测和缓解技术。这项工作属于旨在更好理解LLM内部及其在每个推理步骤中发生的数十亿次激活的更广泛研究领域的一部分。包括OpenAI、Anthropic和谷歌DeepMind在内的领先AI实验室一直在研究各种技术,以解释语言模型的内部工作机制。这些研究共同努力,有望构建出更可靠的系统。