可以说,现代人工智能,或生成式人工智能,正在谷歌开发的注意力机制或Transformer上运行。该论文发表七年后,每个人仍在努力为人工智能寻找更好的架构。但可以说,即使有诸多反对声音,Transformer仍然占据统治地位。
不过,研究人员挑战Transformer并不是什么新鲜事。长短时记忆网络(LSTM)的发明者赛普·霍克赖特(Sepp Hochreiter)在最新的论文中揭示了一种新的LLM架构,其中一项重大创新是xLSTM,即扩展长短期记忆。这种新架构解决了之前LSTM设计的一个主要弱点,即其本质上是顺序的,无法同时处理所有信息。
与Transformer相比,LSTM受到存储容量、无法修改存储决策的限制,并且由于记忆混合而缺乏可并行性。与LSTM不同,Transformer可以对token进行并行操作,从而显著提高效率。
新架构的主要组件包括LSTM的矩阵存储器,消除了记忆混合,以及指数门控。这些修改使LSTM在处理新数据时能够更有效地修改其内存。
Transformers存在哪些问题?
去年12月,来自卡内基梅隆大学和Together AI的研究人员Albert Gu和Tri Dao推出了Mamba,挑战了Transformer的统治地位。
他们的研究揭示了Mamba作为一种状态空间模型(SSM),在各种模态(包括语言、音频和基因组学)中都展示了卓越的性能。例如,研究人员尝试使用Mamba-3B模型进行语言建模,该模型在预训练和下游评估中都超越了同等大小的基于Transformer的模型,并匹配了规模为其两倍的Transformer。
研究人员通过Mamba的选择性SSM层强调了其效率,该层旨在解决Transformer在处理长达数百万序列长度的长序列时的计算效率低下问题,这是Transformer的一个主要限制。
另一篇由艾伦人工智能研究所撰写的论文《信仰与命运:Transformer在组合性上的局限》通过关注需要多步推理的组合问题,探讨了Transformer语言模型的基本局限。
该研究调查了三个具有代表性的组合任务:长乘法、逻辑网格谜题(如爱因斯坦谜题)和一个经典的动态规划问题。
Transformer的自回归特性在全面理解任务时提出了一个基本挑战。这些发现强调了改进Transformer架构和训练方法的迫切需要。
一个好的起点
根据Meta的AI主管Yann LeCun的说法,“自回归LLM就像是一个过程,它不断地以指数方式远离正确答案”。
这可能是Meta也引入MEGALODON的原因,它是一种具有无限上下文长度的神经网络架构,用于高效的序列建模。它被设计用来解决Transformer架构在处理长序列时的限制,包括二次计算复杂度和对长度泛化的有限归纳偏置。
这与谷歌推出Feedback Attention Memory(FAM)相似,FAM是一种新型的Transformer架构,利用反馈循环使网络能够关注其自身的潜在表示,促进Transformer内部工作记忆的出现,并允许其处理无限长的序列。
今年4月,谷歌还发布了基于Griffin架构的新型开源语言模型系列RecurrentGemma 2B,由谷歌DeepMind开发。
这种架构通过在生成长序列时将全局注意力替换为局部注意力和线性递归的混合来实现快速推理。
说到混合,混合专家(MoE)模型也在兴起。它是一种神经网络架构,结合了多个较小模型(称为“专家”)的优势来进行预测或生成输出。MoE模型就像一支医院专家团队。每个专家都是某个特定医学领域的专家,如心脏病学、神经学或矫形学。
就Transformer模型而言,MoE有两个关键元素——稀疏MoE层和门控网络。稀疏MoE层代表模型中的不同“专家”,每个专家都能处理特定任务。门控网络就像一个管理者,确定哪些单词或标记被分配给每个专家。
Transformers的终结?
在Transformers风靡之前,人们热衷于使用循环神经网络(RNNs)进行深度学习。但根据定义,RNNs是顺序处理数据的,这被认为不是基于文本的模型的合适选择。
但Transformers也只是在RNNs的基础上增加了一个注意力层而进行的修改。这可能与“取代”Transformers的东西是一样的。
在NVIDIA GTC 2024上,Jensen Huang向与会者询问了关于基础Transformer设计最重要的改进。Aidan Gomez回答说,在推理方面已经进行了大量的工作来加速这些模型。然而,Gomez表示,他对当前所有基于Transformers的发展感到不满。
“我仍然觉得我们与原始形式如此相似,这让我感到不安。我认为世界需要比Transformer更好的东西,”他说,并补充说他希望它能被“新的性能巅峰”所取代。“我认为它与六七年前的东西太相似了。”