麻省理工学院的研究人员研究了使用由文本到图像模型生成的合成图像来学习视觉表征的潜力。他们是首个展示仅使用合成图像训练的模型在大规模环境下胜过使用真实图像训练的对应模型的团队。
数据是土壤,在这片肥沃的新土地上,MIT的研究人员种下的不仅仅是像素。通过使用合成图像训练机器学习模型,一组科学家最近超越了传统的“真实图像”训练方法所得到的结果。
这项方法的核心是一个名为StableRep的系统,它通过文本到图像模型,如Stable Diffusion,来生成它们。就像用单词创造世界一样。
那么StableRep的秘诀是什么呢?是一种叫做“多正样本对比学习”的策略。
MIT电子工程专业的博士生,MIT计算机科学与人工智能实验室(CSAIL)的附属研究员,这项工作的首席研究人员Lijie Fan说:“我们在教模型通过上下文和变化来更多地了解高级概念,而不仅仅是给它提供数据。”这一工作目前发表在arXiv预印本服务器上。
“当多张从同一文本生成的图像,都被视为同一底层事物的描绘时,模型更深入地潜入图像背后的概念,例如物体,而不仅仅是它们的像素。”
这一方法将来自相同文本提示生成的多张图像视为正样本对,提供了在训练过程中额外的信息,不仅增加了多样性,而且还向视觉系统指明了哪些图像是相似的,哪些是不同的。值得注意的是,StableRep的能力超过了在大规模数据集上训练的顶尖模型的实力,例如SimCLR和CLIP。
“StableRep不仅有助于缓解机器学习中数据获取的挑战,还为人工智能训练技术的新时代迈出了一步。能够按需生成高质量、多样化的合成图像可以帮助减少所需的费用和资源。”Fan说。
数据收集的过程从来都不是简单的。在20世纪90年代,研究人员不得不手动拍摄照片,以收集物体和人脸的数据集。21世纪初,个人在互联网上搜索数据。然而,与现实世界的场景相比,这些未经处理的原始数据往往存在差异,并反映了社会偏见,呈现出扭曲的现实观。
通过人为干预清理数据集的任务不仅昂贵,而且极其具有挑战性。但是,想象一下,如果这项繁重的数据收集可以被简化为简单地发出自然语言的命令。
StableRep成功的关键方面是在生成模型中调整“引导比例”,这确保了合成图像多样性和真实性之间的微妙平衡。当精细调整后,用于训练这些自监督模型的合成图像被发现与真实图像一样有效,甚至有可能更有效。
为了更进一步,还添加了语言监督,创建了一个增强变体:StableRep+。当使用2000万合成图像训练后,StableRep+不仅取得了更高的准确性,而且与使用惊人的5000万真实图像训练的CLIP模型相比,显示出了显著的效率。
然而,未来的道路并非毫无阻碍。研究人员坦率地指出了几个限制,包括当前图像生成的缓慢速度、文本提示与结果图像之间的语义不匹配、潜在偏见的放大,以及图像归属的复杂性,所有这些都是未来进步必须解决的。
另一个问题是StableRep需要首先在大规模真实数据上训练生成模型。团队承认,从真实数据开始仍然是一种必要性;然而,当你有了一个好的生成模型时,你可以将其用于新任务,如训练识别模型和视觉表征。
虽然StableRep通过减少对庞大真实图像的依赖提供了一个好的解决方案,但它引发了关于这些文本到图像模型所使用的未筛选数据内部偏见的担忧。图像合成过程中至关重要的文本提示选择并非完全没有偏见,“这表明了精心文本选择或必要的人为筛选的关键作用,”Fan说。
“使用最新的文本到图像模型,我们已经获得了前所未有的图像生成控制能力,允许从单个文本输入产生多样化的视觉效果。这在效率和多样性方面都超越了现实世界的图像收集。它在特殊任务中尤其有用,如在长尾识别中平衡图像多样性,展示了使用真实图像进行训练的实际补充。”Fan说。
“我们的工作标志着视觉学习向前迈进一步,向提供成本效益高的训练替代方案的目标迈进,同时突出了数据质量和合成的持续改进的需求。”
“能够生成对辨别模型训练有用的数据一直以来都是生成模型学习的梦想,”谷歌DeepMind研究人员和多伦多大学计算机科学教授David Fleet说,他并未参与该论文的撰写。
“虽然我们已经看到了一些迹象,但这个梦想一直是难以捉摸的,尤其是在像高分辨率图像这样的大规模复杂领域。这篇论文第一次向我们提供了令人信服的证据,表明这个梦想正在成为现实。”