苹果公司最近推出了自回归图像模型(AIM),这是一系列预训练的视觉模型,它们使用自回归目标进行预训练。
这些模型代表了训练大规模视觉模型的新前沿,这些视觉模型受到它们的文本对应物——大型语言模型(LLM)的启发,并且展现出类似的规模扩展特性。
研究人员表示,这提供了一种无监督预训练视觉模型的可扩展方法。作者们在预训练期间使用了生成式自回归目标,并提出了技术改进以适应下游任务转移。
研究人员表示,视觉特性的性能随着模型容量和数据量的增加而提高。此外,他们说,目标函数的值与模型在下游任务上的性能有着相关性。
团队还通过预训练一个具有70亿参数的AIM,在20亿图像上实践了这些发现,该模型在一个冻结的主干网络上在ImageNet-1k上达到了84.0%的准确率。
有趣的是,即使在这种规模上,他们也没有观察到性能饱和的迹象。AIM的预训练类似于LLM的预训练,并且不需要任何特定于图像的策略来维持大规模训练的稳定性。
关于AIM
苹果公司认为AIM具有令人向往的特性,包括能够使用普通变换器实现扩展到70亿参数,而不需要稳定性增强技术或广泛的超参数调整。
此外,AIM在预训练任务上的表现与下游任务的性能有很强的相关性,超越了如MAE等最先进的方法,并缩小了生成式与联合嵌入预训练方法之间的差距。
研究者们还发现,随着模型的扩展,没有出现性能饱和的迹象,这表明使用更大的模型进行更长时间的训练,有潜力进一步提高性能。