4M-21:适用于21种模式的Apple小型模型

2024年07月11日 由 alex 发表 345 0

在生成式人工智能领域,苹果公司虽然起步较晚,但最近一直在大力推动研究议程。在生成式人工智能下一波浪潮中最热门的领域之一:设备上的多模态模型,苹果拥有理想的创新场所。通过 API 集成大规模基础模型来支持移动人工智能的想法似乎非常不切实际,也不安全,而苹果公司在支持这种模式的替代方案方面具有得天独厚的优势。然而,苹果在小型设备模型方面的大多数努力都有些令人失望。


这种情况正在开始改变。


上周,苹果公司发布了 4M-21,这是一种可在 21 种模式下无缝工作的多模式模型,也是我认为其在小型设备基础模型方面最令人印象深刻的作品!这项工作无疑为苹果公司的设备上模型战略指明了方向,而且模型的数量之多令人震惊。不过,这项工作建立在苹果几个月前发布 4M 模型时的研究成果基础之上。


4M 概述

4M 框架是大规模多模态屏蔽建模(Massively Multimodal Masked Modeling)的简称,旨在训练能够处理多种任务和模态的模型,预测或生成来自任何其他子集的任何类型的数据。这些模型在各种视觉任务中表现出色,无需额外调整,而且在针对新任务进行微调时表现更好。


2


4M 是一种综合训练方案,涉及一个统一的变压器编码器-解码器。该系统采用掩码建模目标进行训练,涉及多种输入/输出模态,包括文本、图像、几何和语义数据以及神经网络特征图。通过将所有模态转换为离散标记,4M 可在一小部分随机标记子集上执行多模态屏蔽建模。


就功能而言,4M 在以下方面表现出色:

  • 直接处理各种视觉任务。
  • 在针对新任务或模式进行微调时提高性能。
  • 根据不同的模式建立生成模型,实现灵活而富有表现力的多模式编辑。


训练包括将各种模态标记化为离散标记序列,使单个转换器能够从不同的数据类型中学习。训练过程将这些标记的随机子集映射到其他标记。


3


4M 模型可从其他模式的任何组合中生成任何模式,甚至从部分输入中生成。当从一种模式预测多种模式时,4M 会依次预测每种模式,并将完全生成的输出整合回输入中。这种方法可确保在所有训练模式中进行自洽的预测。


4M-21

4M-21 扩展了原始的 4M 方案,增加了模型和数据集的大小、类型和模态数量。该版本还同时在多个数据集上进行训练。每种模态都使用特定的标记化器转换成离散的标记序列。在训练过程中,来自所有模态的随机标记子集被用作输入和目标,目的是从一个子集预测另一个子集。伪标记用于创建一个包含多种对齐模态的大型预训练数据集。


4M-21 对多种模态进行分类训练:

  • RGB:标记化和像素版本的图像,以及调色板。
  • 几何:包括表面法线、深度以及三维人体姿势和形状。
  • 语义:语义分割、边界框以及来自 SAM 等模型的伪标签。
  • 边缘:用于场景布局和语义的 Canny 和 SAM 边缘。
  • 特征图: 来自 CLIP、DINOv2 和 ImageBind 的嵌入。
  • 元数据 来自 RGB 图像和其他模式的各类元数据。


4


标记化

4M-21 最重要的贡献之一是其标记化方案。标记化将模式和任务转换为离散标记序列,统一了它们的表示空间。


4M-21 的创新依赖于对各种模式使用不同的标记化器:


i. ViT 标记化器: 用于类似图像的模态。


ii. MLP 标记器: 用于人类姿势和全局嵌入。


iii. 文本标记器 用于编码文本和其他模式,如边界框和元数据。


5


4M-21 训练包括两个阶段:在大型图像数据集上进行 4M 预训练,然后在包含更多模式的小型数据集上进行微调。使用这些数据集的随机抽样对模型进行训练,语言建模是训练的一部分。


4M-21 架构使用带有模态嵌入的变换器编码器-解码器。屏蔽策略包括多模态随机屏蔽和跨度屏蔽,以确保训练的稳定性。


6


性能评估

Apple 评估了 4M-21 在表面法线和深度估计、语义和实例分割、k-NN 检索以及三维人体关键点估计等任务中的零拍摄性能。该模型的性能超过了强大的基准模型和专业模型,证明了它有能力在不损失性能的情况下解决各种任务。


7


它在转移任务中也表现出色,尤其是在三维物体检测等新任务中。


8


结果凸显了 4M-21 处理多种模式和任务的能力,与其前身 4M-7 相比有了显著改进。


4M-21 是一个复杂的模型。21 种模式不利于简单的架构。不过,4M-21 为未来的设备基础模型展示了令人难以置信的潜力,也让我们看到了苹果在这一领域的战略。希望 4M-21 能激发人们在生成式人工智能这一极其重要的领域开展更多研究。



文章来源:https://medium.com/towards-artificial-intelligence/inside-4m-21-apple-small-model-that-works-across-21-modalities-2416ab96a39e
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消