开发人员尝试优化LLM经常会遇到一系列问题。来自fast.ai的Jonathan Whitaker和Jeremy Howard的一项实验首次揭示了LLM模型中一个被人们忽视的问题,即过度自信,这与广泛讨论的LLM幻觉不应混淆。
过度自信是指即使对于所提出的问题而言,模型也坚持在数据集中提供的某些信息是正确的,这可能是由臭名昭著的两个术语——欠拟合和过度拟合引起的。
首先,过度拟合是指模型过于精细化,过分贴近训练数据。而欠拟合,恰恰相反,表示模型没有足够的训练数据进行预测。这种平衡通常被称为偏差—方差权衡。
为了解决这些问题,开发人员应用了多种技术,有些有效,有些则会带来其他问题。就fast.ai的研究人员的情况而言,他们试图在单个示例上训练模型,令他们惊讶的是,得到的结果与他们预期的非常不同。
过度自信的LLM
当模型面对新的未见数据时,即使是错误的,它也可能对自己的预测表达不必要的信心。这与传统观念相反,传统观念认为神经网络通常需要大量示例,因为训练过程中的损失曲面是崎岖不平的。
想象一下,一个基于患者描述进行疾病诊断的医学数据集进行了细化调整的语言模型。当出现明显症状和明确诊断标准的病例时,该模型会对特定疾病分配高概率。例如,如果一个病人描述了流感的典型症状,该模型可能会将流感作为诊断结果分配近乎1.0的概率。
然而,当面对症状模糊或可能出现多种疾病的复杂医学病例时,模型可能会在不同的诊断选项之间均匀分配概率,表明它对正确诊断的不确定性。
类似地,当训练神经网络分类器(通常反复接触大量数据集)时,Howard和Whitaker注意到即使一个输入-输出对的单个示例对这些模型也会产生显著影响。研究发现,这些模型在训练过程中表现出过度自信。随着自信心的增加,它们会将与其预测相关的概率接近1.0,即使这些预测是错误的。
特别是在训练的早期阶段,这种过度自信引发了关于神经网络如何处理新信息并适应它的问题。
他们发现,模型可以在看到单个示例后学习进行准确的预测,这实际上是在记住训练数据(一个单例)并展示出了强大的泛化能力,从而使其不太可能过度拟合。目的是使机器学习高效并进行可靠的预测,以调节其自信分数。
过度拟合是过度自信模型的原因吗?
虽然过度拟合,即模型变得过于特定于训练数据的现象,在机器学习中是众所周知的挑战,但这里的真正问题似乎是过度自信。这些预测导致了一个意想不到的结果:验证损失,衡量模型在未见数据上的表现,变得更糟,即使模型的训练损失有所改善。
预料之中,这个实验在HackerNews的一篇讨论中引起了几次讨论。当模型对训练数据了解得太好时,在新数据上的表现会很差。该模型的研究人员解释说,他们并没有指出任何问题,只是指出了这样一个机会,即是否可以通过单个示例来训练模型。
有趣的是,这两个术语密切相关,过度自信可能是过度拟合的一种症状。当模型过度拟合时,它会学习训练数据中的统计噪声以及潜在模式。这可能导致模型对其预测过于自信,即使这些预测并不准确。
然而,过度自信并不总是由过度拟合引起的。如果模型没有经过足够的数据训练,或者数据不代表真实世界,模型也可能过度自信。
Google AI的研究人员Lucas Beyer澄清说,这些发现特定于微调预训练模型,并不一定改变模型的初始预训练方式。他还指出,这些发现更适用于微调场景,对于完全从头开始训练模型可能不太相关。
虽然这个实验还有其他问题和批评,但任何人都没有错过一个疏忽,即没有提供基础模型或进行此实验的模型的任何细节。甚至不清楚他们是否一次又一次地使用同一数据集来微调模型,从而导致过度拟合和过度自信的现象发生。