用人工智能生成的数据,来培训其他人工智能模型

2019年12月20日 由 TGS 发表 961209 0
生成式对抗网络(GANs)由生成样本的生成器和试图区分生成样本和真实样本的鉴别器组成,这两部分AI系统有无数的用途,其中之一就是生成合成数据。优步(Uber)的研究人员最近在一篇名为《通过学习加速神经结构搜索的论文中利用了这一点。

这篇论文提出了一种量身定制的GAN——称为生成式教学网络(GTN)——它可以生成数据或训练环境,让模型在接受目标任务测试之前从中学习。该论文指出,与只使用真实数据的方法相比,GTNs帮助加快了9倍的搜索速度,而且与使用“数量级”计算量更少、实现最高性能的最先进架构相比,GTNs更有竞争力。

正如特约作者在一篇博客文章中所解释的,大多数模型搜索需要“大量”资源,因为它们通过在数据集上训练模型来评估模型,直到它们的性能不再提高。这个过程可能会在一个周期内重复数千或更多的模型架构,这在计算方面非常昂贵,并且非常耗时。

一些算法通过在小段时间内只进行训练,并将结果作为真实性能的估计来避免成本,但是这种训练可以通过利用机器学习来进一步加速。其具体方法为——创建训练数据。

GTN通过创建有助于学习过程的不切实际的数据来获得成功。它能够将许多不同类型的对象的信息组合在一起,或者将培训主要集中在最难的示例上,并且能够在实际数据的培训中评估模型。

在实验中,该团队表示,在32步(约0.5秒)的训练中,GTNs训练的模型对流行开源数据集的准确率达到了98.9%,在此期间,他们摄取了4096张合成图像(不到MNIST训练数据集图像的10%)。在另一个数据集上进行评估,在相同性能水平下,模型的学习速度比实际数据快四倍,即使与优化的实际数据学习算法相比也是如此。

此外,在GTN数据上的性能通常被证明是对真实性能的预测——也就是说,仅使用GTN生成的数据,128步就可以获得与实际数据相同的预测能力,而在实际数据上则需要1200步。

步数与时间的意味着什么?答案显而易见,成本节省。
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消