多模态大型语言模型(MM-LLMs)可以通过语音、文本和视觉输入,实现用户和人工智能系统之间更自然和直观的交流,从而提升人机交互的效果。这可以在诸如聊天机器人、虚拟助手和内容推荐等应用中,产生更具上下文相关性和全面性的回答。它们建立在传统的单模态语言模型(如GPT-3)的基础上,同时增加了处理不同数据类型的能力。
然而,多模态LLMs可能需要大量的数据才能表现良好,使它们比其他人工智能模型更缺乏样本效率。在训练过程中对齐不同模态的数据可能是具有挑战性的。由于缺乏全面的端到端训练,在错误传播方面,内容理解和多模态生成能力可能非常有限。由于不同模块之间的信息传递完全基于LLMs生成的离散文本,噪声和错误是不可避免的。确保每种模态的信息正确同步对于实际训练至关重要。
为了解决这些问题,新加坡国立大学计算机学院(NUS)NeXT++团队构建了NexT-GPT。它是一个任意到任意的多模态LLMs,设计用于处理任何组合的文本、图像、视频和音频模态的输入和输出。它使编码器能够对各种模态的输入进行编码,然后将其投影到LLMs的表示上。
他们的方法涉及修改现有的开源LLMs作为核心来处理输入信息。投影后,带有特定指令的生成的多模态信号被引导到不同的编码器,最后在相应的模态中生成内容。他们引入了一种轻量级的对齐学习技术,使得在编码端的LLM为中心的对齐和在解码端的遵循指令的对齐高效地需要最小的参数调整,以实现有效的语义对齐。他们甚至引入了一种模态切换指令调整,以赋予他们任意到任意MM-LLMs具有人类水平的能力。这将弥合不同模态之间特征空间的差距,并确保流畅地理解其他输入中的语义,为NExT-GPT执行对齐学习。
模态切换指令调整(MosIT)支持复杂的跨模态理解和推理,并实现复杂的多模态内容生成。他们甚至构建了一个高质量的数据集,包括各种多模态输入和输出,提供了必要的复杂性和变化性,以促进MM-LLMs处理多样化用户交互并准确地提供期望回答。
最后,他们的研究展示了任意到任意MM-LLMs在弥合各种模态之间差距方面的潜力,并为未来更具人性化的人工智能系统铺平了道路。