解决LLM的幻觉

2023年11月14日由 alex 发表 534 0

LLM在自然语言处理方面展示了令人印象深刻的能力。然而，持续存在的一个主要问题是他们产生幻觉的倾向——产生令人信服但完全不正确或无意义的文本。幻觉的范围可以从无害的事实错误到潜在危险的捏造，例如假新闻。随着LLM继续在现实世界的应用中部署，解决幻觉对于构建可靠、安全的系统至关重要。

在本文中，我将深入探讨LLM中幻觉的成因，以及研究人员用来检测和缓解虚构文本的最新技术。

关键主题包括：

概述LLM产生的常见幻觉类型及其影响
解释导致幻觉文本的根本因素，如过度自信和缺乏合理推理
描述在看似合理的生成文本中检测幻觉的关键挑战
探讨检测幻觉的多种策略，如置信度评分和外部知识基础
讨论减少模型训练期间幻觉的方法，如因果干预和自我消除偏见
分析幻觉缓解与保留大型模型优势之间的权衡
评估当前方法的优势和局限性
突出显示进一步研究的有前景的方向

通过全面探索理解和对抗幻觉的最新工作，这本文旨在提供见解，帮助继续取得更真实、可靠的LLM。详尽的分析将有助于展示这一领域在解决这些问题上取得的进展，以及尚未解决的硬技术难题。

LLM幻觉的主要驱动因素

要了解修复幻觉的技术，我们首先需要理解它们为何发生。我将关注训练期间导致LLM产生虚假信息的因素：

过度自信：LLM被训练用以产生流利、类似人类的文本。它们庞大的参数空间允许模拟语言中的细微模式。然而，这种表达力也使得它们能够在几乎任何主题上生成详细、令人信服的文本——即使是虚构的或毫无意义的。没有足够的基础，LLM会变得过度自信，权威地发言，而不检查其输出是否事实真确。

缺乏推理：人类在生成语言时会利用常识和推理技能，所以我们不会声称错误信息。相比之下，LLM仅在统计上训练文字和概念之间的关系。它们不会推理现实世界的合理性。因此，它们生成缺乏逻辑一致性的详细输出。

不充分的世界知识：与此密切相关的是LLM缺乏关于世界运作方式的一般常识知识。人类的常识是生成荒诞文本的关键制约。但是LLMs的训练输入数据有限，无法包括人类直观使用的所有世界知识。

拟人化：LLM被设计为展示类似人类的会话能力。它们的输出模仿人类反应，建立了对它们事实准确性的不当信任。然而，用户可能会将人性与真实性混为一谈，导致他们相信幻觉文本代表着像人类一样的真实信息。

自动化训练：与人类不同，LLM使用自动化的大规模算法进行训练，没有直接监督。这让它们能够从庞大的数据集中学习复杂的行为。但这也消除了在训练过程中减轻学习错误信息所需的人类判断。

虽然LLM表现出一定的认知能力，但它们的统计训练目标意味着，当自然语言本身不包含正确制约输出的信号时，它们将产生幻觉。接下来，我将探索研究人员特别开发的技术，通过提高基础性来解决这些问题。

幻觉检测方法

最近的研究中一个主要的关注点是检测LLM生成的幻觉内容。这是一个挑战，因为虚构文本可以很容易地伪装成合法信息。幻觉检测的方法旨在区分各种看似合理但虚假的输出与事实一致的文本。主要方法包括：

信心评分：对模型生成的文本正确性给予评分。低分可能表示潜在的幻觉，需要进一步验证。要求校准评分以使之成为除了文本流畅性之外的可靠指标。

一致性建模：检查声明之间是否与一般世界知识的逻辑一致性。揭示指示幻觉的事实矛盾。需要超出仅仅语言建模的概念推理能力。

外部知识检索：查询外部知识库以检索验证或反驳生成声明的相关事实。提供模型自身知识之外的实际证据。成功在很大程度上依赖于知识来源的质量。

半监督学习：利用少量标记的幻觉示例来训练模型，以便更好地识别新实例。通过启发式方法（如掩盖命名实体）生成训练数据。

人机循环：将人类法官纳入评估过程，手动识别幻觉。耗时但利用了人类的世界知识和推理。

形式验证：将问题框架化为证明生成的声明是否违反预定义的形式逻辑规则。允许数学上证明特定不一致性的缺失。

多任务训练：将幻觉检测目标与主要语言建模损失一起进行联合训练。指导模型在生成过程中更好地自我识别缺陷输出。

因果干预：在模型内部编程干预，以揭示当根据真实与虚假信息进行条件设定时生成的文本如何变化。强调可利用的盲点。

评估是这些方法的一个关键挑战。如果没有完整的事实地位标签，就需要使用代理任务和启发式来近似幻觉检测。真正评估性能需要在不同数据集上进行严格的协议。有前景的方向包括混合使用信心估计、逻辑建模、世界知识和人类判断的方法。

训练过程中的幻觉缓解

鉴于前面概述的幻觉的核心驱动因素，最近的工作也旨在修改预训练过程，以首先减少产生虚假文本。这集中在提高LLM的推理能力、世界知识和确定性建模，以避免盲目的过度自信。这里的主要举措包括：

逻辑引导学习：将符号逻辑规则整合到预训练中，以提高推理和一致性建模。遵守反对捏造事实的形式归纳偏见。基于数学逻辑而非仅仅统计模式。

外部知识融合：在预训练中使用额外的结构化知识资源，如教科书、知识图谱和本体。提供更丰富的世界知识来支持常识推理。

不确定性建模：在预训练期间，明确模拟所预测标记的不确定性，以捕捉置疑的缺乏。防止盲目过度生成而不表现出疑虑。

因果建模：训练系统从数据中推断和推理出因果关系。允许生成对事实事件间影响的见解，超越统计关联。

对幻觉数据上进行微调：使用带标签的幻觉对立数据集进一步微调模型，直接优化虚假文本检测。

人类判断融合：在训练期间，向人类评估者呈现样本以标记潜在的幻觉，以改善合理性建模。

自我消除偏见目标：优化模型以检测自身的错误输出和错误信心，为提高基础性提供学习信号。

通过通过新的训练目标、数据和互动整合额外的归纳偏见，模型可以更好地学习生成权威、事实的回应。理想的组合很可能涉及检测和训练策略的双重改进。

幻觉缓解中的权衡

减少幻觉对于提高LLM的可靠性和安全性具有明显的好处。但也存在一些重要的权衡需要考虑：

事实性与不确定性：过度约束输出会失去细微的人类不确定性。一些“幻觉”可能是表达可能性或虚构而非虚假事实。需要平衡。

真实性与可扩展性：将训练基础于人类知识和逻辑可以大大提高事实一致性，但可能减少自动化可扩展性。优化两者的开放问题。

推理与理解：事实性依赖于推理，而语言理解需要学习统计模式。在提高一项技能与另一项技能之间的某种张力。

一致性与能力：专门针对谬误进行消除偏见可能会限制一般能力。但不受约束的优化会导致不可靠。需要谨慎定位。

纠正错误与防止错误：事后修复幻觉可以让不完美的模型更快发布。但更严格的训练最终更为可取。

当前技术也面临着类似脆弱性能的挑战，在分布外的示例上表现和处理模型规模上的挑战。在知识表示和推理方面仍然存在基本挑战需要解决。该领域必须继续推进旨在在不损害关键模型强度的情况下最大化真实性的方法。

总结

幻觉源于训练期间的因素，如过度自信、缺乏推理能力和不充分的世界知识。检测虚构文本很困难，但使用信心评分、一致性检查和外部知识辅助识别的方法有所帮助。缓解幻觉需要修改训练过程，以改善模型基础、不确定性意识和推理能力的整合。然而，在减少幻觉与保持大型模型优势之间存在权衡。

激动人心的新发展展示了解决这些问题方面的持续进展。例如，谷歌的Sparrow模型使用检索证据来标记不受支持的声明。而深度思考的Chinchilla模型分配不确定性估计以控制捏造的事实。与此同时，BigScience项目正在探索专家参与的循环训练以提高基础性。

要解决完全可靠的LLM问题，仍然存在根本性的研究挑战。但所描述的举措的广度凸显了缓和事实错误的有希望的途径。幻觉是安全、广泛部署有能力的LLM必须解决的一个主要前沿问题。持续的进步需要跨多个学科的大胆创新和严格的工程设计。如果人工智能社区将这一挑战作为优先事项，我乐观地认为强大的语言生成将成为现实。通过勤奋、协作的努力，我们可以培养将开放式理解和推理与对真实性的坚定承诺结合起来的LLM。

文章来源：https://medium.com/@bijit211987/tackling-hallucinations-in-llms-f2d7cbf35e72

标签：

人工智能机器学习

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 MLOps指南：核心理念、实践方法

下一篇使用LLaVA创建你的视觉聊天助手

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来