研究人员使用更少的标记数据训练图像生成AI
2019年03月08日 由 深深深海 发表
299820
0
生成AI模型倾向于学习复杂的数据分布,这就是为什么它们擅长于生成类似人类的语言,以及以假乱真的汉堡和人脸图像。但是训练这些模型需要大量标记数据,并且根据手头的任务,必要的语料库有时会供不应求。
谷歌和苏黎世联邦理工学院的研究人员提出了一种新方法,在论文“High-Fidelity Image Generation With Fewer Labels”中,描述了一个“语义提取器”,可以从训练数据中提取特征,以及从一小部分标记图像中推断整个训练集的标记的方法。这些自我和半监督的技术结合在一起,可以在像ImageNet这样的流行基准测试上胜过最先进的方法。
简而言之,这不是为鉴别器提供真实图像的手动注释的地面实况标记,而是提供推断的标记。
在研究人员提出的几种无监督方法之一中,首先使用上述特征提取器在目标训练数据集上提取特征表示,即一组用于自动发现原始数据分类所需表示的技术。然后执行聚类分析,将表示进行分组,使同一组中的表示与其他组中的表示具有更多共同点。最后训练一个GAN,通过推断标签来尝试区分生成的样本和真实样本。
在另一种称为“共同训练”的预训练方法中,论文的作者利用无监督,半监督和自我监督方法的组合来推断与GAN训练同时发生的标记信息。在无监督的步骤中,采用以下两种方法之一:完全删除标记,或为实际图像分配随机标记。相比之下,在半监督阶段,当标记可用于真实数据的子集时,它们在鉴别器的特征表示上训练分类器,它们用于预测未标记的真实图像的标记。
为了测试该技术的性能,研究人员使用ImageNet数据库,其中包含130多万幅训练图像和5万幅测试图像,每幅图像对应于1000个对象类中的一个,并随机从每个图像等级中选择一部分样本来获得部分标记的数据集(即“救火车”,“山脉”等)。
在第三代谷歌张量处理单元的1280个核心上,使用无监督、预训练和联合训练的方法对每个GAN进行三次训练后,团队用两个评分指标比较了输出的质量。
无监督方法并不是特别成功,到目前为止,最成功的是自我监督,它实现了最先进的性能。
在未来,研究人员希望研究这些技术如何应用于更大和更多样化的数据集,“未来的工作有几个重要方向,但我们相信这是实现少数高保真图像合成的第一步。”
论文:
arxiv.org/pdf/1903.02271.pdf