研究人员使用更少的标记数据训练图像生成AI

2019年03月08日由深深深海发表 300214 0

生成AI模型倾向于学习复杂的数据分布，这就是为什么它们擅长于生成类似人类的语言，以及以假乱真的汉堡和人脸图像。但是训练这些模型需要大量标记数据，并且根据手头的任务，必要的语料库有时会供不应求。

谷歌和苏黎世联邦理工学院的研究人员提出了一种新方法，在论文“High-Fidelity Image Generation With Fewer Labels”中，描述了一个“语义提取器”，可以从训练数据中提取特征，以及从一小部分标记图像中推断整个训练集的标记的方法。这些自我和半监督的技术结合在一起，可以在像ImageNet这样的流行基准测试上胜过最先进的方法。

简而言之，这不是为鉴别器提供真实图像的手动注释的地面实况标记，而是提供推断的标记。

在研究人员提出的几种无监督方法之一中，首先使用上述特征提取器在目标训练数据集上提取特征表示，即一组用于自动发现原始数据分类所需表示的技术。然后执行聚类分析，将表示进行分组，使同一组中的表示与其他组中的表示具有更多共同点。最后训练一个GAN，通过推断标签来尝试区分生成的样本和真实样本。

在另一种称为“共同训练”的预训练方法中，论文的作者利用无监督，半监督和自我监督方法的组合来推断与GAN训练同时发生的标记信息。在无监督的步骤中，采用以下两种方法之一：完全删除标记，或为实际图像分配随机标记。相比之下，在半监督阶段，当标记可用于真实数据的子集时，它们在鉴别器的特征表示上训练分类器，它们用于预测未标记的真实图像的标记。

为了测试该技术的性能，研究人员使用ImageNet数据库，其中包含130多万幅训练图像和5万幅测试图像，每幅图像对应于1000个对象类中的一个，并随机从每个图像等级中选择一部分样本来获得部分标记的数据集（即“救火车”，“山脉”等）。

在第三代谷歌张量处理单元的1280个核心上，使用无监督、预训练和联合训练的方法对每个GAN进行三次训练后，团队用两个评分指标比较了输出的质量。

无监督方法并不是特别成功，到目前为止，最成功的是自我监督，它实现了最先进的性能。

在未来，研究人员希望研究这些技术如何应用于更大和更多样化的数据集，“未来的工作有几个重要方向，但我们相信这是实现少数高保真图像合成的第一步。”

论文：

arxiv.org/pdf/1903.02271.pdf

标签：

行业谷歌苏黎世联邦理工学院

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Udacity和Deeplearning推出TensorFlow 2.0在线培训课程

下一篇 Automat和AdLingo在对话人工智能技术方面达成合作伙伴关系

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术