当人工智能聊天机器人“产生幻觉”时,它们实际上在做什么?这个词是否准确地捕捉到了为什么几乎无处不在生成式人工智能工具有时会在提示时生成虚假信息?
随着关于人工智能应用的真实性质、能力和轨迹的争论逐渐展开,该领域的一位顶尖专家反驳了“幻觉”的概念,他认为这个词在很大程度上错误地描述了当前人工智能模型的运作方式。
Northeastern大学的Usama Fayyad说:“总的来说,我们不喜欢这个词,因为这些模型会出错,并且我们可以解释它们为什么会出错。”
Fayyad说,“幻觉”一词是由谷歌推广的,以回应OpenAI极具影响力的ChatGPT的推出。这个词虽然在一定程度上可以概括ChatGPT以及其相似产品的缺点,但在这里有点用词不当,可能会导致公众对人工智能技术的理解产生负面影响。
Fayyad继续说道:“当你说幻觉时,你赋予了模型太多东西。你赋予了它意图;你赋予了它意识;你赋予了它理性运行的默认模式;你赋予了它在机器方面的某种理解。”
Fayyad强调,聊天机器人“没有意图;没有理解能力。”
聊天机器人“产生幻觉”的频率仍然没有一个准确的数据,尽管一些公司一直在努力量化广泛使用的大型语言模型的错误率。据《纽约时报》报道,一家由谷歌前员工创立的名为Vectra的初创公司发现,OpenAI的模型大约有3%的时间产生幻觉,而一个名为“掌上聊天”的谷歌平台产生虚假信息的比率为27%。
Fayyad说,更复杂的是,当前生成式人工智能模型产生的输出高度依赖于提示。稍微调整一下提示,你就会得到一个非常不同的结果。
Byron Wallace他曾把这些提示设计称为“并不完全是提示工程”,为聊天机器人设计输入的过程,更像是“咒语和黑魔法”
Fayyad想要减少在提示方面的变数,简化围绕生成式人工智能工具的潜在应用的对话。
Fayyad说:“我可以说——这些模型产生了幻觉;或者,更准确地说,模型犯了一个错误,我们知道这些模型犯了错误。”
Fayyad提出,人类和人工智能机器之间需要更大的信任。他认为,“从业者、用户和组织需要信任系统做出决策的方式,它的运作方式,以及它不会表现出任何紊乱、不可预测或危险的行为。”
他写道:“人工智能的话题滋生了神秘和歧义。”“解开技术和算法表现出的行为的神秘面纱,无论好坏,都会在理论、学术、商业和实践等各个方面取得真正的进步,并创造有价值的成果。”
目前,像ChatGPT这样的大型语言模型是在来自在线数据库、文章和其他来源的大量数字文本上训练的“高级自动完成”应用。“他们只是在生产输出,就像你的手机或者任何其他自动完成设备一样。”
“这些模型不知道正确的序列和错误之间的区别,”Fayyad说。“了解错误发生在哪里,并试图从中恢复——这是一个非常困难的人工智能问题,我们今天没有很好的解决方案。”
为了控制幻觉,研究人员已经开始使用其他大型语言模型来检查各种聊天机器人的准确性。当然,这些工具也能够产生错误(幻觉),Fayyad指出。
他强调,人类需要继续检查这些工具产生的输出——这一概念被称为“循环中的人”
他说:“这将由作为用户的你来判断,‘这个自动完成并不正确’,然后修正它。”