近日,一项新的研究预印本揭示了OpenAI的GPT-4.5大型语言模型在一项三方版本的图灵测试中取得了显著成果。图灵测试是衡量机器是否具备类人智能的长期标准,而GPT-4.5在此次测试中表现优异,成功击败了人类审问者的辨识能力。
在这项等待同行评审的研究中,研究人员设计了一种实验场景:参与者同时与一个人类和一个AI进行聊天,并需要评估哪个是人类。当GPT-4.5被指示采用某种人格进行聊天时,它被认为是人类的概率高达73%,这一结果远高于随机猜测的50%概率,标志着图灵测试已被成功击败。
除了GPT-4.5,研究还评估了Meta的LLaMa 3.1-405B模型、OpenAI的GPT-4o模型,以及早期开发的聊天机器人ELIZA。结果显示,在分辨人类和GPT-4.5及LLaMa(在有人格提示的情况下)时,参与者的表现并没有比随机猜测更好。甚至在某些情况下,GPT-4.5被更频繁地判断为人类,而非实际的人类参与者。
图灵测试由英国数学家兼计算机科学家艾伦·图灵于1950年提出,旨在通过基于文字的对话来评估机器的智能。如果审问者无法正确判断哪个是计算机、哪个是人类,就意味着机器可能在某种程度上具备了类人智能。
在这项最新研究中,研究人员在线上进行了图灵测试。近300名参与者被随机分配为审问者或两个被审问的“证人”之一,而另一个“证人”则是一个聊天机器人。实验的关键在于AI模型的提示方式:不带人格提示和带有人格提示。在不带人格提示的情况下,GPT-4.5的总体胜率仅为36%,远低于带有人格提示时的73%胜率。作为对比,只接受不带人格提示的GPT-4o(当前ChatGPT版本所使用的)胜率仅为21%。
尽管GPT-4.5在图灵测试中取得了显著成果,但这并不意味着它已经具备了真正的人类智能。图灵测试更像是一个思想实验,而非实际运行的测试。大型语言模型虽然经过训练能生成大量由人类创作的文本,并在面对不理解的问题时编出合理的回答,但它们仍然缺乏真正的人类智能。
研究的首席作者、加州大学圣地亚哥分校语言与认知实验室的研究员卡梅隆·琼斯认为,他的研究结果并不明确表明大型语言模型具有人类般的智能。但他指出,实验结果进一步证明了大型语言模型在短时间交流中能够替代人类而不被识别,这可能导致工作自动化、更多的社会工程攻击以及更普遍的社会扰动。
最后,琼斯强调,图灵测试不仅是对机器的检验,也反映了人们对技术不断变化的认知。随着公众越来越习惯与AI互动,他们可能将更擅长识别AI,因此图灵测试的结果并非一成不变。