人工智能技术发展迅速。ChatGPT已成为历史上增长最快的在线服务。谷歌和微软正在将生成式人工智能集成到他们的产品中。
但是我们可以发现人工智能聊天机器人正在变得不那么通用,而是更加专业化。人工智能的服务用户的能力受到其所接触的数据的限制。
在人工智能训练的过程中往往会选择广泛收集数据,人工智能系统会吸收成千上万的书籍和网页。但一组更精选、更专注的培训数据可能会使人工智能聊天机器人对在特定行业工作或生活在特定地区的人更有用。
这一演变的一个重要因素是为高级大型语言模型(LLM)收集训练数据的成本不断增加,这种模型是ChatGPT的动力来源。公司知道数据是有价值的:Meta和谷歌通过销售以用户数据为目标的广告赚了数十亿美元。但数据的价值现在正在发生变化。Meta和谷歌出售数据“洞察(insights)”;他们投资于分析,将许多数据点转化为对用户的预测。
数据对OpenAI的价值略有不同。想象一下一条推文:“猫坐在垫子上。”这条推文对目标广告商来说没有价值。它没有涉及到有关用户兴趣的信息。
但对于正在构建LLM以产生类人类语言的OpenAI来说,这条推文对于展示人类语言的规律是有价值的。一条推文无法教会人工智能造句,但数十亿条推文、博客、维基百科条目等等当然可以。例如,高级LLM GPT-4可能是使用从X(前身为Twitter)、Reddit、维基百科等网站上收集的数据构建的。
人工智能革命正在改变企业的商业模式。Meta和谷歌等公司多年来一直在利用其数据资源投资人工智能研发。
像X和Reddit这样的组织已经开始向第三方收取API访问的费用,该系统用于从这些网站上抓取数据。数据抓取需要像X这样的公司在计算能力上花费更多的钱来完成数据查询。
展望未来,随着像OpenAI这样的组织寻求构建更强大的GPT LLM版本,他们将面临更大的数据获取成本。这个问题的一个解决方案可能是合成数据。
合成数据是由人工智能系统从零开始创建的,用于代替真实训练数据训练更先进的人工智能系统。
这是一个新想法,但它面临许多问题。好的合成数据需要与它所基于的原始数据有足够的差异,才能告诉模型一些新的东西,同时又足够相似,才能传达正确的信息。这可能很难实现。合成数据只是真实世界数据的复制品,由此产生的人工智能模型可能难以发挥创造力,并且还会加深现有的偏见。
另一个问题是“Hapsburg AI”问题。这表明,在合成数据上训练人工智能将导致这些系统的有效性下降——因此可以用Hapsburg王室臭名昭著的近亲繁殖进行类比。一些研究表明,像ChatGPT这样的系统已经出现了这种情况。
ChatGPT之所以如此出色,一个原因是它使用了人类反馈的强化学习(RLHF),人们根据准确性对其输出进行评分。如果人工智能生成的合成数据不准确,那么根据这些数据训练的人工智能模型本身就会不准确。因此,对人类反馈以纠正这些不准确之处的需求可能会增加。
然而,尽管大多数人能够说出一个句子在语法上是否准确,但很少有人能够评论其事实准确性——尤其是当输出是技术性或专业性的内容时。RLHF不太可能发现关于专业主题的不准确输出。如果合成数据意味着有更多的不准确之处,那么即使这些模型“学到”了更多,通用LLM的质量也可能停滞或下降。
谷歌工程师透露,没有什么阻止第三方重建像GPT-3或谷歌的LaMDA这样的LLM。许多组织可以使用自己的专业数据,为自己的目标构建自己的内部人工智能系统。从长远来看,这对这些组织来说可能比ChatGPT更有价值。
最近,日本政府指出,开发以日本为中心的ChatGPT版本可能有助于他们的人工智能战略,因为ChatGPT不能充分代表日本。软件公司SAP最近推出了其人工智能“路线图”,为专业组织提供人工智能开发能力。这将使公司更容易构建自己的定制版本的ChatGPT。
麦肯锡(McKinsey)和毕马威(KPMG)等咨询公司正在探索为“特定目的”培训人工智能模型。关于如何创建私人、个人版本的ChatGPT的指南可以很容易地在网上找到。诸如GPT4All之类的开源系统已经存在。
随着通用LLM面临的开发挑战,加上潜在的监管障碍,人工智能的未来可能是许多特定的小语言模型,而不是大语言模型。小型语言模型在获取大量数据方面或许会遇到困难。
但在RLHF方面,它们也可能具有优势,因为很少有语言模型可以用于特定目的。与通用人工智能系统的一般反馈相比,对其目标具有专业知识的员工可能会为此类人工智能系统提供更有价值的反馈。这可以克服数据较少的缺点。