Diff Transformer：改进大型语言模型信息检索能力的新架构

2024年10月17日由 daydream 发表 529 0

大型语言模型（LLM）在信息检索方面的能力提升是当前研究的热点，对诸如检索增强生成（RAG）和上下文学习（ICL）等重要应用具有潜在影响。近日，微软研究与清华大学的研究人员提出了一种名为差分变压器（Diff Transformer）的新型LLM架构，该架构通过增强对相关上下文的注意力并过滤掉噪声，从而提高了性能。

微信截图_20241017110635

Transformer架构与“中间信息丢失”现象

Transformer架构是现代LLM的基础，它使用注意力机制在生成输出时权衡输入序列中不同部分的重要性。然而，研究表明，Transformer在处理长文本时难以检索关键信息。这被称为“中间信息丢失”现象，即LLM在处理长输入上下文时无法稳健地利用信息，且当模型必须访问长文本中间的相关信息时，性能会显著下降。

此外，研究人员还发现，LLM的某些幻觉现象（即模型在拥有相关上下文信息的情况下仍产生错误输出）与错误的注意力模式相关。Transformer的注意力机制中使用的softmax函数倾向于将注意力分数分配给所有令牌，包括与任务不相关的令牌，这导致模型在长文本中容易失去对最重要部分的关注。

差分变压器（Diff Transformer）

为了解决这个问题，研究人员开发了差分变压器（Diff Transformer），这是一种新的LLM基础架构。其核心思想是使用“差分注意力”机制来消除噪声并增强对输入中最相关部分的注意力。

差分注意力通过将查询和键向量分成两组，并计算两个单独的softmax注意力图来实现。然后，使用这两个图之间的差异作为注意力分数。这个过程消除了常见噪声，鼓励模型关注与输入相关的信息。

尽管Diff Transformer相比经典Transformer增加了一个减法操作，但由于并行化和优化技术，它仍保持了效率。

实验评估

研究人员在各种语言建模任务上对Diff Transformer进行了评估，包括模型大小（从30亿到130亿参数）、训练令牌和上下文长度（最多64000个令牌）的扩展。

实验结果表明，Diff Transformer在不同基准测试中始终优于经典Transformer架构。与相同大小的Transformer模型相比，一个训练了1万亿令牌的30亿参数Diff Transformer表现出了几个百分点的持续改进。

进一步实验证实了Diff Transformer的可扩展性。研究还发现，Diff Transformer在利用越来越长的上下文方面特别有效，并在关键信息检索、幻觉缓解和上下文学习方面显示出显著改善。

未来展望

尽管初步结果令人鼓舞，但仍有改进空间。研究团队正在将Diff Transformer扩展到更大的模型大小和训练数据集，并计划将其扩展到其他模态，包括图像、音频、视频和多模态数据。

研究人员已发布了Diff Transformer的代码，实现了不同的注意力和优化机制。他们认为，该架构有助于改善各种LLM应用的性能。

文章来源：https://venturebeat.com/ai/microsofts-differential-transformer-cancels-attention-noise-in-llms/

标签：

大型语言模型架构 Diff Transformer

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI研究发现：ChatGPT回答受用户身份影响

下一篇英伟达发布Llama-3.1 AI模型，性能超越OpenAI

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来