人工智能领域长期以来一直受到一个问题的困扰:究竟什么是智能?像GPT-4这样的人工智能凸显了这种不确定性:一些研究人员认为GPT模型显示出了真正智能的迹象,但其他人持不同观点。
为了解决这些争论,复杂系统研究所(SFI)的研究人员阿森尼·莫斯科维奇、梅兰尼·米切尔和维克多·维克拉姆·奥杜亚在一篇即将发表在《机器学习研究交易》上的论文中提出了具体的任务,以确定和测试智能的概念。他们在arXiv预印本服务器上发布了这篇论文。作者们提供了这些任务,并发现即使是最先进的人工智能在抽象和泛化概念方面仍远远落后于人类。
该团队创建了基于Google研究员弗朗索瓦·夏洛特开发的领域的评估难题,专注于视觉类比推理,捕捉基本概念,如上方、下方、中心、内部和外部。人类和人工智能参与者被展示了几种演示概念的模式,然后被要求将该概念应用于不同的图像。下图展示了关于相同性的测试。
对于人类来说,这些视觉难题非常容易:例如,他们在相同性概念上的正确率达到了88%。但是GPT-4却遇到了困难,只有23%的难题回答正确。因此,研究人员认为目前,人工智能程序在视觉抽象推理方面仍然很薄弱。
莫斯科维奇表示:"我们大部分通过类比进行推理,所以这是一个非常有趣的问题。" 该团队使用了新颖的视觉难题,确保机器之前没有遇到过它们。GPT-4经过了对互联网的大规模训练,因此有必要避免它可能已经遇到过的任何内容,确保它不仅仅是在模仿现有文本而是展示自己的理解能力。这就是为什么像人工智能在Bar考试上表现出色这样的结果并不是衡量其真实智能的好方法。
该团队认为,随着时间的推移和人工智能算法的改进,发展评估程序将变得越来越困难和重要。我们不应该试图创建一个测试人工智能智能的方法,而是应该设计更加精心策划的数据集,专注于智能的特定方面。莫斯科维奇说:"我们的算法变得越好,就越难分辨它们能做什么和不能做什么。所以我们在开发评估数据集时需要非常慎重。"