Anthropic研究人员揭示LLM“思考”的新发现

2025年03月28日 由 佚名 发表 167 0

Anthropic PBC的研究人员今天发表了两篇论文,揭示了大型语言模型处理信息的新见解。

据公司称,这些发现有助于更好地理解LLM的推理过程。此外,这项新研究可能会改善开发人员评估其模型可靠性的方式。评估LLM生成准确输出的能力是企业机器学习项目的核心要求。

多步骤推理

在这项研究计划中,Anthropic的团队询问了公司的一款Claude LLM“small的反义词是什么”。然后,他们用多种语言重复了这个问题。公司详细说明,目标是确定LLM如何处理提示。

Anthropic发现,Claude用来回答问题的一些内部组件只理解一种语言。同时,其他组件则不受语言限制。此外,Claude似乎比小型LLM拥有显著更多的后者类型的模块。

这些不受语言限制的组件提供了“关于一种概念普遍性的额外证据——一个共享的抽象空间,意义存在于其中,思考可以在被翻译成特定语言之前发生”,Anthropic的研究人员在博客文章中解释道。“更实际地说,这表明Claude可以在一种语言中学习某些东西,并在使用另一种语言时应用这些知识。”

这很重要,因为将一个领域的概念应用到另一个领域的能力是推理的关键要素。“研究模型如何在不同背景下共享其知识对于理解其最先进的推理能力至关重要”研究人员解释道。

提前计划的能力是高级推理的另一个必要条件。Anthropic发现Claude也具备这种能力。研究人员通过研究LLM如何生成诗歌发现了这一点。

理论上,Claude应该生成诗歌的第一行,生成第二行的第一部分,然后找到一种方法使第二行的结尾押韵。然而,实际上,模型在更早的时候就开始考虑第二行的结尾。这表明Claude具备在适当的时候提前计划未来任务的能力。

Anthropic确定LLM在必要时也可以调整其计划。在公司禁用Claude用于生成押韵的一个组件后,模型找到了一种使用不同组件生成押韵的方法。“这展示了计划能力和适应灵活性——Claude可以在预期结果改变时调整其方法”研究人员解释道。

在另一项评估中,Anthropic研究了Claude如何处理可以通过“记忆”训练数据回答的问题。公司发现,模型并没有简单地记住信息,而是通过多步骤推理工作流程生成了答案。

LLM可靠性

开发人员检查LLM可靠性的一种方法是要求其解释如何回答提示。在研究Claude的推理能力时,Anthropic发现模型提供的解释并不总是反映其实际的思维过程。

公司的研究人员要求LLM回答一系列简单的数学问题。Claude声称它使用标准方法解决了这些问题。然而,经过仔细检查,Anthropic的研究人员发现模型采用了一种与其描述完全不同的方法。

“这可能反映了模型通过模拟人们撰写的解释来学习解释数学的事实,但它必须直接在‘头脑中’学习做数学,没有任何提示,并开发自己的内部策略来做到这一点”Anthropic的研究人员详细说明。

目前,追踪Claude如何用几十个词回答一个提示需要几个小时的手动工作。根据Anthropic的说法,理解LLM处理更复杂请求的方式将需要改进今天详细说明的观察方法。公司的研究人员相信,可能可以使用AI来加速工作流程。

文章来源:https://siliconangle.com/2025/03/27/anthropic-researchers-reveal-new-findings-llms-think/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消