在《Intelligent Computing》杂志上发表的一篇论文中,普林斯顿大学的菲利普·尼古拉斯·约翰逊-莱尔德和克姆尼茨科技大学的马科·拉格尼提出了一个新的图灵测试替代方案,这是计算机先驱艾伦·图灵开发的里程碑式测试。该论文建议,现在是将焦点从机器是否能够模仿人类回答问题转移到一个更基本的问题上:“一个程序是否根据人类的思维方式进行推理?”
图灵测试长期以来一直是人工智能评估的一个基石。测试中,一个人类评估者试图区分人类回答和机器回答一系列问题。如果评估者无法一致区分两者,那么机器被认为“通过”了测试。虽然图灵测试在人工智能历史上具有重要意义,但它也有一定的局限性:
约翰逊-莱尔德和拉格尼提出了一个新的评估框架,以确定人工智能是否真正像人类那样推理。这个框架包括三个关键步骤:
心理实验测试:
研究人员建议将人工智能程序接受一系列心理实验测试,旨在区分人类式推理和标准逻辑过程。这些实验探索推理的各个方面,包括人类如何从复杂陈述中推断可能性,以及他们如何将一致的可能性浓缩为一个等等,这些细微之处与标准逻辑框架不同。
自我反思:
这一步旨在评估程序对自己推理方式的理解,这是人类认知的一个关键方面。程序必须能够自省其推理过程,并对其决策提供解释。通过提出需要对推理方法进行自我意识的问题,研究人员试图确定人工智能是否具有人类式的内省能力。
源代码审查:
在最后一步中,研究人员深入研究程序的源代码。关键在于确定模拟人类表现的组成部分是否存在。这些组成部分包括快速推理系统、深思熟虑的推理和根据上下文和一般知识解释术语的能力。如果程序的源代码反映了这些原则,那么程序被认为是以人类式的方式进行推理。
这种创新方法将图灵测试替换为对人工智能程序推理能力的审查,标志着人工智能评估的范式转变。通过将人工智能视为认知实验的参与者,甚至将其代码提交进行类似脑成像研究的分析,作者们试图让我们更接近了解人工智能系统是否真正以人类式的方式进行推理。
随着世界继续追求先进的人工智能,这种替代方法有望重新定义人工智能评估的标准,并让我们更接近理解机器的推理方式的目标。通向人工通用智能的道路可能刚刚迈出了重要的一步。