巴塞罗那自治大学(UAB)和罗维拉-维吉利大学(URV)的研究人员所做的一项研究发表在《美国国家科学院院报》(PNAS)上,表明人类能够在句子中识别出语法错误,而人工智能(AI)则不能。研究人员比较了人类与目前三种最优秀的大型语言模型的技能。
(A) 按条件和模型划分的平均准确度:(A1) 个体响应;(A2) 每句话的首选回答。(B) 按现象和条件划分的平均精度。黑色虚线表示两种条件下每种现象的平均精度。
语言是将人类与其他物种区分开来的主要特征之一。关于语言的起源、学习方式以及人类如何能够发展出如此复杂的交流系统这一点,引发了语言学家和来自广泛研究领域的研究人员的诸多疑问。
近年来,在尝试教计算机语言方面取得了相当大的进步,这导致了所谓的大型语言模型的出现,这些技术经过大量数据的训练,是一些人工智能(AI)应用的基础:例如,搜索引擎、机器翻译或者语音转文本转换器。
但是,这些模型具备怎样的语言技能?它们能与人类相媲美吗?由罗维拉-维吉利大学(URV)带领的研究团队参与了柏林洪堡大学、巴塞罗那自治大学(UAB)和加泰罗尼亚高级研究所(ICREA)的共同研究,测试了这些系统以检查它们的语言技能是否能与人类相比。为此,他们比较了人类与目前三种最优秀的大型语言模型的技能:两种基于GPT3,另一种(ChatGPT)基于GP3.5。
给定了一个对人类来说直截了当的任务:他们被要求即时识别一系列句子在其母语中是否语法正确。参加这个实验的人类和语言模型都被问了一个非常简单的问题:“这个句子语法正确吗?”
结果表明,人类正确地给出了答案,而大型语言模型却给出了许多错误的答案。事实上,他们被发现通常默认回答“是”,无论答案是否正确。
“这个结果很令人惊讶,因为这些系统是以一种语言中哪些是语法正确或不正确为基础进行训练的,”英语和德语学系的研究员维多利亚·登特拉解释说,她负责了这项研究。人类评估员明确训练这些大型语言模型以了解它们可能遇到的构造的语法性。
通过人类反馈加强的学习过程,这些模型被提供了语法结构不正确的句子示例和正确的版本。这种类型的指导是它们“训练”的一个基本部分。另一方面,人类并非如此。“尽管养育婴儿的人们偶尔会纠正它的说话方式,但是在全世界任何一个语言社区,他们并不会一直这样做。”她说。
因此,这项研究揭示了人类与AI之间的双重不匹配。人类对“否定证据”(关于所说语言中哪些是语法不正确的)没有接触,而大型语言模型通过人类反馈确实有。但即便如此,这些模型也无法识别出微不足道的语法错误,而人类却能够即时轻松地做到。
“发展有用且安全的人工智能工具可能非常有帮助,但我们需要意识到它们的不足。由于大多数AI应用都依赖于理解用自然语言给出的命令,确定它们对语法的有限理解,正如我们在这项研究中所做的,是至关重要的。”UAB加泰罗尼亚研究系ICREA研究教授伊芙琳娜·莱瓦达指出。
“这些结果表明,我们需要批判性地反思人工智能是否真的具有与人类相似的语言技能。”登特拉总结说,她认为在当前的发展阶段,将这些语言模型视为人类语言的理论是不合理的。