去年夏天,Ilia Shumailov、Zakhar Shumaylov、Yiren Zhao、Yarin Gal、Nicolas Papernot 和 Ross Anderson撰写了《递归的诅咒:生成数据的训练让模型忘记》,这篇论文暗示人工智能模型在不久的将来会自我毒害。这一警告被认为在理论上是有远见的,而且有证据表明这项技术存在问题。
这个问题被称为“模型崩溃”,人工智能聊天机器人将丢失他们最初学习的信息,并用人工智能模型合成数据取而代之。
上个月,一位推特用户发布了一张截图,显示埃隆·马斯克的人工智能公司xAI开发的大型语言模型聊天机器人Grok抄袭了OpenAI的回应。
当Winterbourne要求Grok修补恶意软件时,Grok回应说不能,“因为这违反了OpenAI的用例政策”。
该用户在帖子中解释道:“Grok实际上只是在剽窃OpenAI的代码库。”xAI的一名技术人员否认了这一解释,他之前曾为竞争对手OpenAI和谷歌DeepMind工作。
“当我们第一次注意到它时,我们感到十分震惊,”他回应道。该员工可能没有预见到这一点,但该公司首席执行官马斯克肯定预见到了。
这项技术不仅在科技公司之间引发了竞争,还重新引发了旧的竞争,比如OpenAI和马斯克之间的竞争,马斯克早些时候是GPT制造商的重要支持者。
抛开他们之间的个人问题不谈,人工智能相关的错误信息也进入了网上购物平台。电子商务平台亚马逊上的用户指出,OpenAI错误信息出现在产品中。
这些产品的原始副本被命名为“对不起,但我无法满足这一要求。这违反了OpenAI的使用政策”,在媒体出版物发现这些列表后,这些产品已被存档。尽管如此,在Threads和LinkedIn上仍然可以找到许多这样的帖子。
许多人说,Shumailov和团队的研究忽略了一个关键点。丹尼尔·萨克(Daniel Sack)就是其中之一,他是波士顿咨询公司X集团(BCG的技术构建和设计部门)的董事总经理兼合伙人
他在LinkedIn上写道:“用于训练未来模型的大多数数据将不仅仅是原始材料的复制品,而是完全新颖和前所未有的。”
作为回应,他的理论是可以理解的,因为技术人员通常很难说出他们正在制造或帮助他人制造的产品的故障。硅谷一次又一次地犹豫不决,不愿承认可能存在的技术威胁。
就连萨克的公司BCG X也与OpenAI合作,这表明,至少目前,没有一个支持这项技术的人可以信任,因为它有层层未解决的道德问题。所有上述问题都表明,吹嘘这项技术解决人类问题的能力不应该是当前最重要的问题。
生成的人工智能程序依赖于来自互联网每个角落的深不可测的数据量。网络上已经充斥着人工智能生成的垃圾邮件。无论这些人工智能模型的VC或开发者如何否认,问题仍然存在,而且随着数亿人每天使用这些工具,问题只会变得更糟。
斯塔福德郡大学伦理学和游戏技术教授Catherine Flick在谈到Grok事件时表示“这确实表明,如果这些模型从LLM生成的数据中学习,从长远来看是不可靠的——如果无法判断机器生成了什么数据,输出的质量将继续下降。”
最重要的是,人类无法区分人工智能生成的内容和人类生成的内容。同样,这些语言模型也无法判断它们看到的人工智能生成的文本是否与现实相符,这可能会引入比当前模型更多的错误信息。