用人工智能生成的数据,来培训其他人工智能模型
2019年12月20日 由 TGS 发表
961209
0
生成式对抗网络(GANs)由生成样本的生成器和试图区分生成样本和真实样本的鉴别器组成,这两部分AI系统有无数的用途,其中之一就是生成合成数据。优步(Uber)的研究人员最近在一篇名为《通过学习加速神经结构搜索的论文中利用了这一点。
这篇论文提出了一种量身定制的GAN——称为生成式教学网络(GTN)——它可以生成数据或训练环境,让模型在接受目标任务测试之前从中学习。该论文指出,与只使用真实数据的方法相比,GTNs帮助加快了9倍的搜索速度,而且与使用“数量级”计算量更少、实现最高性能的最先进架构相比,GTNs更有竞争力。
正如特约作者在一篇博客文章中所解释的,大多数模型搜索需要“大量”资源,因为它们通过在数据集上训练模型来评估模型,直到它们的性能不再提高。这个过程可能会在一个周期内重复数千或更多的模型架构,这在计算方面非常昂贵,并且非常耗时。
一些算法通过在小段时间内只进行训练,并将结果作为真实性能的估计来避免成本,但是这种训练可以通过利用机器学习来进一步加速。其具体方法为——创建训练数据。
GTN通过创建有助于学习过程的不切实际的数据来获得成功。它能够将许多不同类型的对象的信息组合在一起,或者将培训主要集中在最难的示例上,并且能够在实际数据的培训中评估模型。
在实验中,该团队表示,在32步(约0.5秒)的训练中,GTNs训练的模型对流行开源数据集的准确率达到了98.9%,在此期间,他们摄取了4096张合成图像(不到MNIST训练数据集图像的10%)。在另一个数据集上进行评估,在相同性能水平下,模型的学习速度比实际数据快四倍,即使与优化的实际数据学习算法相比也是如此。
此外,在GTN数据上的性能通常被证明是对真实性能的预测——也就是说,仅使用GTN生成的数据,128步就可以获得与实际数据相同的预测能力,而在实际数据上则需要1200步。
步数与时间的意味着什么?答案显而易见,成本节省。