超越变压器:新AI架构可能革新大型语言模型

2025年01月19日 由 佚名 发表 39 0

在过去的几周里,来自谷歌和Sakana的研究人员揭示了两种尖端的神经网络设计,可能会颠覆AI行业。

这些技术旨在挑战变压器——一种基于上下文连接输入和输出的神经网络——这种技术在过去六年中定义了AI。

新的方法是谷歌的“Titans”和Sakana设计的“Transformers Squared”,Sakana是一家以自然为技术解决方案模型的东京AI初创公司。实际上,谷歌和Sakana都通过研究人脑来解决变压器问题。他们的变压器基本上利用不同阶段的记忆,并独立激活不同的专家模块,而不是每次都同时调用整个模型来解决问题。

最终结果使AI系统比以往更聪明、更快、更多才多艺,而不必变得更大或运行成本更高。

背景介绍,变压器架构,这种技术赋予ChatGPT名字中的“T”,是为序列到序列任务设计的,如语言建模、翻译和图像处理。变压器依赖于“注意力机制”,即根据上下文理解一个概念的重要性,以建模输入标记之间的依赖关系,使其能够并行处理数据,而不是像所谓的递归神经网络那样顺序处理——在变压器出现之前,递归神经网络是AI的主导技术。这项技术赋予模型上下文理解能力,并标志着AI发展的一个分水岭。

然而,尽管取得了显著成功,变压器在可扩展性和适应性方面面临重大挑战。为了使模型更灵活和多才多艺,它们也需要更强大。因此,一旦训练完成,除非开发人员提出新模型或用户依赖第三方工具,否则无法改进。这就是为什么在AI领域,“更大更好”是一个普遍规则。

但这可能很快会改变,感谢谷歌和Sakana。

Titans:为简单AI设计的新记忆架构

谷歌研究的Titans架构采用不同的方法来提高AI的适应性。Titans不是修改模型处理信息的方式,而是专注于改变它们存储和访问信息的方式。该架构引入了一个神经长期记忆模块,能够在测试时学习记忆,类似于人类记忆的工作方式。

目前,模型会读取你的整个提示和输出,预测一个标记,再次读取所有内容,预测下一个标记,依此类推,直到得出答案。它们的短期记忆能力惊人,但长期记忆能力很差。让它们记住上下文窗口之外的事情,或在大量噪音中记住非常具体的信息,它们可能会失败。

而Titans则结合了三种类型的记忆系统:短期记忆(类似于传统变压器)、长期记忆(用于存储历史上下文)和持久记忆(用于特定任务的知识)。这种多层次的方法使模型能够处理超过200万个标记长度的序列,远远超出当前变压器的高效处理能力。

Image: Google
图片:谷歌

根据研究论文,Titans在各种任务中显示出显著的改进,包括语言建模、常识推理和基因组学。该架构在“针尖对大海捞针”任务中表现尤为出色,需要在非常长的上下文中定位特定信息。

该系统模仿人脑为不同任务激活特定区域,并根据不断变化的需求动态重构其网络。

换句话说,类似于你大脑中的不同神经元专门用于不同功能,并根据你正在执行的任务被激活,Titans通过结合互联的记忆系统来模拟这一理念。这些系统(短期、长期和持久记忆)协同工作,根据当前任务动态存储、检索和处理信息。

Transformers Squared:自适应AI来了

就在谷歌的论文发布两周后,Sakana AI和东京科学研究所的研究团队推出了Transformers Squared,一个允许AI模型根据当前任务实时修改其行为的框架。该系统通过在推理过程中仅选择性地调整其权重矩阵的单一组件,使其比传统的微调方法更高效。

根据研究论文,Transformers Squared“采用双通机制:首先,一个调度系统识别任务属性,然后使用强化学习训练的任务特定‘专家’向量动态混合,以获得针对传入提示的目标行为。”

它牺牲了推理时间(思考更多)以换取专业化(知道应用哪种专业知识)。

Image: Sakana AI
图片:Sakana AI

Transformers Squared的创新之处在于其无需广泛再训练即可适应的能力。该系统使用研究人员称之为奇异值微调(SVF)的技术,专注于仅修改特定任务所需的基本组件。这种方法显著降低了计算需求,同时在性能上与当前方法持平或有所提高。

在测试中,Sakana的Transformer在不同任务和模型架构中表现出显著的多样性。该框架在处理分布外应用方面显示出特别的潜力,表明它可以帮助AI系统在面对新情况时变得更灵活和响应迅速。

这里是我们尝试的一个类比。当你学习一项新技能时,你的大脑会形成新的神经连接,而不需要重写所有内容。例如,当你学习弹钢琴时,你的大脑不需要重写所有知识——它会为该任务调整特定的神经回路,同时保持其他能力。Sakana的想法是,开发人员不需要重新训练模型的整个网络来适应新任务。

相反,模型通过奇异值微调选择性地调整特定组件,以在特定任务中变得更高效,同时保持其一般能力。

总的来说,AI公司炫耀其模型规模庞大的时代可能很快成为过去。如果这一代新的神经网络获得关注,那么未来的模型将不需要依赖大规模来实现更大的多样性和性能。

今天,变压器主导着市场,通常通过外部工具如检索增强生成(RAG)或LoRAs来增强其能力。但在快速发展的AI行业中,只需一次突破性实施就能引发重大变革——一旦发生,整个领域必将随之而动。

文章来源:https://decrypt.co/301639/beyond-transformers-ai-architecture-revolution
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消