随着人工智能(AI)的普及达到顶峰,研究人员警告说,这个行业可能会耗尽训练数据。这可能会减缓人工智能模型,特别是大型语言模型的增长,甚至可能改变人工智能革命的轨迹。
但考虑到网络上有那么多数据,为什么潜在的数据缺乏是一个问题呢?是否有解决风险的方法?
我们需要大量的数据来训练强大、精确和高质量的人工智能算法。例如,ChatGPT接受了570G的文本数据(大约3000亿字)的训练。
同样,稳定扩散算法(它是DALL-E、Lensa和Midtravel等许多AI图像生成应用程序的基础)是在LION-5B数据集上训练的,该数据集包括58亿图像文本对。如果算法训练的数据量不足,则会产生不准确或低质量的输出。
培训数据的质量也很重要。社交媒体帖子或模糊的照片等低质量的数据很容易被找到,但不足以训练出高性能的人工智能模型。
从社交媒体平台获得的文本可能有偏见,或者可能包括虚假信息或非法内容,这些信息或非法内容可以被模型复制。例如,当微软试图使用推特内容训练其人工智能机器人时,它学会了制造种族主义和歧视女性的产品。
这就是为什么人工智能开发者会从书籍、在线文章、科学论文、维基百科以及某些经过过滤的网页内容中寻找高质量的内容。谷歌助理接受了1.1万部爱情小说的培训,这些小说都是从自己的网站Smashwods上挑选出来的,目的是让它更能进行对话。
人工智能行业一直在越来越大的数据集上训练人工智能系统,这就是为什么我们现在有高性能的模型,如ChatGPT或DALL-E3。与此同时,研究表明,在线数据存量的增长要比用于训练人工智能的数据集慢得多。
在去年发表的一篇论文中,一组研究人员预测,如果当前的人工智能训练趋势继续下去,我们将在2026年之前耗尽高质量的文本数据。他们还估计,低质量语言数据将在2030年至2050年之间的某个时间耗尽,低质量图像数据将在2030年至2060年之间耗尽。
根据会计咨询集团PwC的数据,到2030年,人工智能将为世界经济贡献多达15.7万亿美元(合24.1万亿澳元)。但可用数据的耗尽可能会减缓其发展。
虽然以上几点可能会让一些AI粉丝感到震惊,但情况可能并不像看上去那么糟糕。人工智能模型在未来的发展有许多未知之处,也有一些方法来应对数据短缺的风险。
其中一个机会是人工智能开发者可以改进算法,以便更有效地使用他们已经拥有的数据。
在未来几年里,他们很可能会使用更少的数据和更小的计算能力来训练高性能的人工智能系统。这也有助于减少人工智能的碳足迹。
另一个选择是使用人工智能来创建用于训练系统的合成数据。换句话说,开发人员可以简单地生成他们所需的数据,以适应他们特定的人工智能模型。
已有几个项目正在使用合成内容,这些内容经常来自像Mostly AI这样的数据生成服务。在未来,这将变得越来越常见。
开发者们还在寻找网络空间以外的内容,例如大出版商和离线存储库持有的内容。想象一下,在互联网出现之前发表的数以百万计的文本。如果这些文本电子化,它们可以为AI项目提供新的数据来源。
全球最大的新闻内容所有者之一News Corp最近表示,它正在与人工智能开发商谈判内容交易。新闻集团的大部分内容都是在收费墙后面。这样的交易将迫使人工智能公司支付训练数据的费用,而迄今为止,他们大多是从互联网上免费获取训练数据的。
内容创作者一直抗议未经授权使用自己的内容来训练人工智能模型,一些公司还起诉微软、OpenAI和Stability AI等公司。获得工作报酬可能有助于恢复创意者和人工智能公司之间存在的一些权力不平衡。