Diff Transformer:改进大型语言模型信息检索能力的新架构

2024年10月17日 由 daydream 发表 210 0

大型语言模型(LLM)在信息检索方面的能力提升是当前研究的热点,对诸如检索增强生成(RAG)和上下文学习(ICL)等重要应用具有潜在影响。近日,微软研究与清华大学的研究人员提出了一种名为差分变压器(Diff Transformer)的新型LLM架构,该架构通过增强对相关上下文的注意力并过滤掉噪声,从而提高了性能。


微信截图_20241017110635


Transformer架构与“中间信息丢失”现象


Transformer架构是现代LLM的基础,它使用注意力机制在生成输出时权衡输入序列中不同部分的重要性。然而,研究表明,Transformer在处理长文本时难以检索关键信息。这被称为“中间信息丢失”现象,即LLM在处理长输入上下文时无法稳健地利用信息,且当模型必须访问长文本中间的相关信息时,性能会显著下降。


此外,研究人员还发现,LLM的某些幻觉现象(即模型在拥有相关上下文信息的情况下仍产生错误输出)与错误的注意力模式相关。Transformer的注意力机制中使用的softmax函数倾向于将注意力分数分配给所有令牌,包括与任务不相关的令牌,这导致模型在长文本中容易失去对最重要部分的关注。


差分变压器(Diff Transformer)


为了解决这个问题,研究人员开发了差分变压器(Diff Transformer),这是一种新的LLM基础架构。其核心思想是使用“差分注意力”机制来消除噪声并增强对输入中最相关部分的注意力。


差分注意力通过将查询和键向量分成两组,并计算两个单独的softmax注意力图来实现。然后,使用这两个图之间的差异作为注意力分数。这个过程消除了常见噪声,鼓励模型关注与输入相关的信息。


尽管Diff Transformer相比经典Transformer增加了一个减法操作,但由于并行化和优化技术,它仍保持了效率。


实验评估


研究人员在各种语言建模任务上对Diff Transformer进行了评估,包括模型大小(从30亿到130亿参数)、训练令牌和上下文长度(最多64000个令牌)的扩展。


实验结果表明,Diff Transformer在不同基准测试中始终优于经典Transformer架构。与相同大小的Transformer模型相比,一个训练了1万亿令牌的30亿参数Diff Transformer表现出了几个百分点的持续改进。


进一步实验证实了Diff Transformer的可扩展性。研究还发现,Diff Transformer在利用越来越长的上下文方面特别有效,并在关键信息检索、幻觉缓解和上下文学习方面显示出显著改善。


未来展望


尽管初步结果令人鼓舞,但仍有改进空间。研究团队正在将Diff Transformer扩展到更大的模型大小和训练数据集,并计划将其扩展到其他模态,包括图像、音频、视频和多模态数据。


研究人员已发布了Diff Transformer的代码,实现了不同的注意力和优化机制。他们认为,该架构有助于改善各种LLM应用的性能。

文章来源:https://venturebeat.com/ai/microsofts-differential-transformer-cancels-attention-noise-in-llms/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消