OpenAI的ChatGPT-4.5实现了一个曾被认为需要几十年才能达到的里程碑:在图灵测试风格的评估中,它成功说服大多数参与者相信自己是人类。
在最近的研究中由加州大学圣地亚哥分校进行的研究,旨在评估大型语言模型是否能通过经典的三方图灵测试。据报道,GPT-4.5在73%的文本对话中取得了成功。
研究显示,最新的大型语言模型表现优于早期版本,如GPT-4.0和其他模型,包括ELIZA和LLama-3.1-405 B。
由OpenAI在二月份推出的GPT-4.5能够识别微妙的语言线索,使其看起来更像人类。据加州大学圣地亚哥分校的博士后研究员卡梅伦·琼斯说。
“如果你问它们做人的感觉如何,这些模型往往能很好地回答,并能令人信服地假装拥有情感和性体验,”琼斯告诉Decrypt。 “但它们在处理实时信息或当前事件时会遇到困难。”
图灵测试由英国数学家阿兰·图灵在1950年提出,评估机器是否能模仿人类对话到足以欺骗一位人类评委。如果评委无法可靠地区分机器和人类,则认为机器通过了测试。
为了评估AI模型的表现,研究人员测试了两种提示类型:一种是带有最少指令的基线提示,另一种是更详细的提示,指导模型采用一个内向、精通网络的年轻人使用俚语的语气。
“我们根据一项探索性研究选择了这些见证者,在该研究中我们评估了五种不同的提示和七种不同的LLM,发现LLaMa-3.1-405B、GPT-4.5和这种角色提示表现最佳”研究中的研究人员说。
研究还讨论了大型语言模型通过图灵测试的更广泛的社会和经济影响,包括潜在的滥用。
“一些风险包括虚假信息,如伪装成普通人的机器人以增加对某个原因的兴趣,”琼斯说。“其他风险涉及欺诈或社会工程——如果一个模型通过电子邮件与某人长期交流并显得真实,它可能会说服他们分享敏感信息或访问银行账户。”
周一,OpenAI宣布推出其旗舰GPT模型的下一个版本,GPT-4.1。这个新的AI更加先进,能够处理大量文档、代码库,甚至是小说。OpenAI表示将在今年夏天淘汰GPT-4.5并用GPT 4-1取代它。
虽然图灵从未见证过今天的AI景象,琼斯指出他在1950年提出的测试仍然具有相关性。
“图灵测试仍然与图灵的初衷相关,”他说。“在他的论文中,他谈到学习机器,并建议通过创建一个从大量数据中学习的计算儿童来构建通过图灵测试的东西。这基本上就是现代机器学习模型的工作方式。”
当被问及对研究的批评时,琼斯承认其价值,同时澄清图灵测试测量的内容和不测量的内容。
“我主要想说的是,图灵测试并不是一个完美的智能测试——甚至不是人类特征的测试”他说。“但它在测量的内容上是有价值的:机器是否能让人相信它是人类。这值得测量,并具有实际意义。”