重新定义AI评估:从模仿转向推理的新测试方法

2023年11月21日 由 daydream 发表 276 0

在《Intelligent Computing》杂志上发表的一篇论文中,普林斯顿大学的菲利普·尼古拉斯·约翰逊-莱尔德和克姆尼茨科技大学的马科·拉格尼提出了一个新的图灵测试替代方案,这是计算机先驱艾伦·图灵开发的里程碑式测试。该论文建议,现在是将焦点从机器是否能够模仿人类回答问题转移到一个更基本的问题上:“一个程序是否根据人类的思维方式进行推理?”


微信截图_20231121113732


图灵测试长期以来一直是人工智能评估的一个基石。测试中,一个人类评估者试图区分人类回答和机器回答一系列问题。如果评估者无法一致区分两者,那么机器被认为“通过”了测试。虽然图灵测试在人工智能历史上具有重要意义,但它也有一定的局限性:


  • 模仿与理解:通过图灵测试通常涉及模仿人类回答问题,使其更像是对模仿和语言生成的测试,而不是真正的人类式推理。许多人工智能系统擅长模仿人类对话,但缺乏深入的推理能力。
  • 缺乏自我意识:图灵测试并不要求人工智能具备自我意识或对自己推理的理解。它仅关注外部互动和回应,忽视了人类认知的内省方面。
  • 未能解决思考问题:艾伦·图灵本人也意识到这个测试可能并不能真正回答机器是否能够思考的问题。这个测试更多地是关于模仿而非认知。


约翰逊-莱尔德和拉格尼提出了一个新的评估框架,以确定人工智能是否真正像人类那样推理。这个框架包括三个关键步骤:


心理实验测试:


研究人员建议将人工智能程序接受一系列心理实验测试,旨在区分人类式推理和标准逻辑过程。这些实验探索推理的各个方面,包括人类如何从复杂陈述中推断可能性,以及他们如何将一致的可能性浓缩为一个等等,这些细微之处与标准逻辑框架不同。


自我反思:


这一步旨在评估程序对自己推理方式的理解,这是人类认知的一个关键方面。程序必须能够自省其推理过程,并对其决策提供解释。通过提出需要对推理方法进行自我意识的问题,研究人员试图确定人工智能是否具有人类式的内省能力。


源代码审查:


在最后一步中,研究人员深入研究程序的源代码。关键在于确定模拟人类表现的组成部分是否存在。这些组成部分包括快速推理系统、深思熟虑的推理和根据上下文和一般知识解释术语的能力。如果程序的源代码反映了这些原则,那么程序被认为是以人类式的方式进行推理。


这种创新方法将图灵测试替换为对人工智能程序推理能力的审查,标志着人工智能评估的范式转变。通过将人工智能视为认知实验的参与者,甚至将其代码提交进行类似脑成像研究的分析,作者们试图让我们更接近了解人工智能系统是否真正以人类式的方式进行推理。


随着世界继续追求先进的人工智能,这种替代方法有望重新定义人工智能评估的标准,并让我们更接近理解机器的推理方式的目标。通向人工通用智能的道路可能刚刚迈出了重要的一步。

文章来源:https://techxplore.com/news/2023-11-redefining-quest-artificial-intelligence-turing.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消