超越变压器：新AI架构可能革新大型语言模型

2025年01月19日由佚名发表 181 0

在过去的几周里，来自谷歌和Sakana的研究人员揭示了两种尖端的神经网络设计，可能会颠覆AI行业。

这些技术旨在挑战变压器——一种基于上下文连接输入和输出的神经网络——这种技术在过去六年中定义了AI。

新的方法是谷歌的“Titans”和Sakana设计的“Transformers Squared”，Sakana是一家以自然为技术解决方案模型的东京AI初创公司。实际上，谷歌和Sakana都通过研究人脑来解决变压器问题。他们的变压器基本上利用不同阶段的记忆，并独立激活不同的专家模块，而不是每次都同时调用整个模型来解决问题。

最终结果使AI系统比以往更聪明、更快、更多才多艺，而不必变得更大或运行成本更高。

背景介绍，变压器架构，这种技术赋予ChatGPT名字中的“T”，是为序列到序列任务设计的，如语言建模、翻译和图像处理。变压器依赖于“注意力机制”，即根据上下文理解一个概念的重要性，以建模输入标记之间的依赖关系，使其能够并行处理数据，而不是像所谓的递归神经网络那样顺序处理——在变压器出现之前，递归神经网络是AI的主导技术。这项技术赋予模型上下文理解能力，并标志着AI发展的一个分水岭。

然而，尽管取得了显著成功，变压器在可扩展性和适应性方面面临重大挑战。为了使模型更灵活和多才多艺，它们也需要更强大。因此，一旦训练完成，除非开发人员提出新模型或用户依赖第三方工具，否则无法改进。这就是为什么在AI领域，“更大更好”是一个普遍规则。

但这可能很快会改变，感谢谷歌和Sakana。

Titans：为简单AI设计的新记忆架构

谷歌研究的Titans架构采用不同的方法来提高AI的适应性。Titans不是修改模型处理信息的方式，而是专注于改变它们存储和访问信息的方式。该架构引入了一个神经长期记忆模块，能够在测试时学习记忆，类似于人类记忆的工作方式。

目前，模型会读取你的整个提示和输出，预测一个标记，再次读取所有内容，预测下一个标记，依此类推，直到得出答案。它们的短期记忆能力惊人，但长期记忆能力很差。让它们记住上下文窗口之外的事情，或在大量噪音中记住非常具体的信息，它们可能会失败。

而Titans则结合了三种类型的记忆系统：短期记忆（类似于传统变压器）、长期记忆（用于存储历史上下文）和持久记忆（用于特定任务的知识）。这种多层次的方法使模型能够处理超过200万个标记长度的序列，远远超出当前变压器的高效处理能力。

根据研究论文，Titans在各种任务中显示出显著的改进，包括语言建模、常识推理和基因组学。该架构在“针尖对大海捞针”任务中表现尤为出色，需要在非常长的上下文中定位特定信息。

该系统模仿人脑为不同任务激活特定区域，并根据不断变化的需求动态重构其网络。

换句话说，类似于你大脑中的不同神经元专门用于不同功能，并根据你正在执行的任务被激活，Titans通过结合互联的记忆系统来模拟这一理念。这些系统（短期、长期和持久记忆）协同工作，根据当前任务动态存储、检索和处理信息。

Transformers Squared：自适应AI来了

就在谷歌的论文发布两周后，Sakana AI和东京科学研究所的研究团队推出了Transformers Squared，一个允许AI模型根据当前任务实时修改其行为的框架。该系统通过在推理过程中仅选择性地调整其权重矩阵的单一组件，使其比传统的微调方法更高效。

根据研究论文，Transformers Squared“采用双通机制：首先，一个调度系统识别任务属性，然后使用强化学习训练的任务特定‘专家’向量动态混合，以获得针对传入提示的目标行为。”

它牺牲了推理时间（思考更多）以换取专业化（知道应用哪种专业知识）。

Transformers Squared的创新之处在于其无需广泛再训练即可适应的能力。该系统使用研究人员称之为奇异值微调（SVF）的技术，专注于仅修改特定任务所需的基本组件。这种方法显著降低了计算需求，同时在性能上与当前方法持平或有所提高。

在测试中，Sakana的Transformer在不同任务和模型架构中表现出显著的多样性。该框架在处理分布外应用方面显示出特别的潜力，表明它可以帮助AI系统在面对新情况时变得更灵活和响应迅速。

这里是我们尝试的一个类比。当你学习一项新技能时，你的大脑会形成新的神经连接，而不需要重写所有内容。例如，当你学习弹钢琴时，你的大脑不需要重写所有知识——它会为该任务调整特定的神经回路，同时保持其他能力。Sakana的想法是，开发人员不需要重新训练模型的整个网络来适应新任务。

相反，模型通过奇异值微调选择性地调整特定组件，以在特定任务中变得更高效，同时保持其一般能力。

总的来说，AI公司炫耀其模型规模庞大的时代可能很快成为过去。如果这一代新的神经网络获得关注，那么未来的模型将不需要依赖大规模来实现更大的多样性和性能。

今天，变压器主导着市场，通常通过外部工具如检索增强生成（RAG）或LoRAs来增强其能力。但在快速发展的AI行业中，只需一次突破性实施就能引发重大变革——一旦发生，整个领域必将随之而动。

文章来源：https://decrypt.co/301639/beyond-transformers-ai-architecture-revolution

标签：

人工智能大型语言模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 MiniMax发布MiniMax-01系列模型，强化超长文本处理能力

下一篇山姆·奥尔特曼爆料：OpenAI即将推出o3-mini

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来