Anthropic的两篇最新论文试图揭示大型语言模型内部的运作机制,探索如何定位可解释的概念,并将其与将这些概念翻译成语言的计算“电路”联系起来,以及如何描述Claude Haiku 3.5的关键行为,包括幻觉、规划和其他重要特征。
大型语言模型能力背后的内部机制仍然理解不够透彻,这使得解释或理解它们用来解决问题的策略变得困难。这些策略嵌入在支撑模型生成每个词的数十亿次计算中——然而据Anthropic称,它们仍然大多不透明。为了探索这种隐藏的推理层,Anthropic的研究人员开发了一种他们称之为“AI显微镜”的新方法:
我们从神经科学领域汲取灵感,该领域长期以来研究思维生物体的复杂内部,并尝试构建一种AI显微镜,让我们能够识别活动模式和信息流。
简单来说,Anthropic的AI显微镜涉及用所谓的替代模型替换正在研究的模型,其中模型的神经元被稀疏激活的特征所取代,这些特征通常可以代表可解释的概念。例如,当模型即将生成一个州首府时,某个特征可能会被激活。
自然地,替代模型并不总是会产生与基础模型相同的输出。为了解决这一限制,Anthropic的研究人员为他们想要研究的每个提示使用一个局部替代模型,通过将误差项和固定注意模式加入替代模型来创建。
[局部替代模型]产生与原始模型完全相同的输出,但尽可能多地用特征替代计算。
作为描述从初始提示到最终输出的局部替代模型中特征流动的最后一步,研究人员创建了一个归因图。这个图通过修剪掉所有不影响输出的特征来构建。
请记住,这只是Anthropic的AI显微镜的一个非常粗略的概述。有关详细信息,请参阅上面链接的原始论文。
使用这种方法,Anthropic的研究人员得出了一些有趣的结果。谈到多语言能力,他们发现了一种通用语言的证据,Claude在将概念翻译成特定语言之前使用这种语言来生成概念。
我们通过在不同语言中询问Claude“small的反义词”来研究这一点,发现对于小和相反概念的核心特征激活,并触发了大这个概念,然后将其翻译成问题的语言。
另一个有趣的发现是,与普遍认为的LLM逐字生成输出“没有太多预想”相反,研究Claude如何生成押韵显示它实际上是提前计划的。
在开始第二行之前,它开始“思考”可能与“grab it”押韵的相关词。然后,考虑到这些计划,它写了一行以计划的词结尾。
Anthropic的研究人员还深入研究了为什么模型有时会编造信息,即所谓的幻觉。幻觉在某种意义上是模型工作方式的内在特性,因为它们应该始终产生下一个猜测。这意味着模型必须依赖特定的反幻觉训练来抵消这种倾向。换句话说,有两种不同的机制在起作用:一种识别“已知实体”,另一种对应于“未知名称”或“无法回答”。它们的正确互动是防止模型产生幻觉的关键:
我们展示了当Claude识别出一个名字但对那个人一无所知时,这种误触发可能发生。在这种情况下,“已知实体”特征可能仍然会激活,然后抑制默认的“不知道”特征——在这种情况下是不正确的。一旦模型决定需要回答问题,它就会开始虚构:生成一个看似合理但不幸的是不真实的回应。
Anthropic研究人员探索的其他有趣维度包括心算、生成解释推理过程的思维链、多步推理和越狱。您可以在Anthropic的论文中获取完整的细节。
Anthropic的AI显微镜旨在为可解释性研究做出贡献,并最终提供一种工具,帮助我们理解模型如何进行推理并确保它们与人类价值观保持一致。然而,这仍然是一个初步的努力,只能捕捉到模型总计算的一小部分,并且只能应用于包含几十个词的小提示。InfoQ将继续报道LLM可解释性方面的进展,随着新的见解的出现。