Meta AI提出大型概念模型 (LCM):超越基于标记的语言建模的语义飞跃

2024年12月16日 由 neo 发表 681 0

在自然语言处理(NLP)领域,大型语言模型(LLMs)取得了显著进展,使得文本生成、摘要和问答等应用成为可能。然而,LLMs主要依赖词级处理(即逐词预测),这与人类以更高层次的抽象形式(如句子或思想)进行沟通的方式相悖。词级建模在处理长文本时面临挑战,可能导致输出不一致,且扩展到多语言和多模态应用时,计算成本高昂且数据需求密集。

为了克服这些局限,Meta AI的研究人员提出了一种创新方法:大型概念模型(LCMs)。LCMs代表了传统LLM架构的重大转变,引入了两项核心创新。

Screenshot-2024-12-15-at-4.39.41 PM

首先,LCMs在高维嵌入空间SONAR中进行计算,而非操作离散标记。SONAR空间表示抽象的意义单位,即“概念”,这些概念对应于句子或话语。该空间旨在支持200多种语言和多种模态(包括文本和语音),并提供跨语言和跨模态的无缝转换能力。

其次,LCMs实现了语言和模态无关的建模。与特定语言或模态相关的模型不同,LCMs仅在纯语义级别上处理和生成内容。这种设计使得LCMs能够在语言和模态之间无缝转换,实现强大的零样本泛化能力。

LCMs的核心由概念编码器和解码器构成,它们将输入句子映射到SONAR嵌入空间,并将嵌入重新解码为自然语言或其他模态。这些组件是冻结的,确保了模块化和轻松扩展到新语言或模态的能力,而无需重新训练整个模型。

Screenshot-2024-12-15-at-4.41.18 PM-1-1536x699

LCMs在技术上具有多项创新优势:

  1. 分层架构LCMs采用分层结构,模拟人类推理过程,改善了长文本的连贯性,并避免了局部编辑对整体上下文的破坏。
  2. 基于扩散的生成LCMs采用扩散模型作为最有效的设计,根据前面的嵌入预测下一个SONAR嵌入。研究人员探索了单塔和双塔两种架构,分别处理上下文编码和去噪任务。
  3. 可扩展性和高效性与标记级处理相比,LCMs的概念级建模减少了序列长度,解决了标准Transformer的二次复杂性问题,更有效地处理长上下文。
  4. 零样本泛化LCMs利用SONAR的广泛多语言和多模态支持,在未见过的语言和模态上表现出强大的零样本泛化能力。
  5. 搜索和停止准则LCMs使用基于与“文档结束”概念距离的搜索算法,确保生成的连贯性和完整性,无需微调。

Screenshot-2024-12-15-at-4.40.55 PM-1-1536x607

Meta AI的实验结果突显了LCMs的潜力。一个规模为70亿参数的基于扩散的双塔LCM在摘要等任务中展现出竞争力。关键结果包括:

  • · 多语言摘要LCMs在多种语言的零样本摘要中胜过基准模型,展示了其强大的适应性。
  • · 摘要扩展任务LCMs能够生成具有连贯性和一致性的扩展摘要,这一新颖评估任务验证了其能力。
  • · 效率和准确性LCMs在处理较短序列时比基于标记的模型更高效,同时保持准确性。研究中详细介绍了互信息和对比准确性等指标的显著改进。

Meta AI的大型概念模型LCMs是传统基于标记的语言模型的有希望的替代方案。通过利用高维概念嵌入和模态无关处理,LCMs解决了现有方法的关键局限性。其分层架构增强了连贯性和效率,而强大的零样本泛化能力则扩展了LCMs对不同语言和模态的适用性。随着LCMs架构研究的深入,它们有望重新定义语言模型的能力,提供一种更可扩展和适应性更强的人工智能驱动通信方法。

文章来源:https://www.marktechpost.com/2024/12/15/meta-ai-proposes-large-concept-models-lcms-a-semantic-leap-beyond-token-based-language-modeling/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消