人类智能在很大程度上依赖于从其他人那里获取知识——这些知识随着时间的积累成为我们文化进化的一部分。这种社会学习在文献中被称为文化传播,它使我们能够实时模仿动作和行为。但是人工智能是否也能以相同的方式发展社会学习技能呢?
模仿学习长期以来一直是人工智能训练的一种方法,指导算法观察人类完成任务然后尝试模仿他们。但通常情况下,AI工具需要多个示例和接触大量数据才能成功复制他们的训练者。
而现在,DeepMind研究人员的一项开创性研究声称,AI代理也可以通过模仿人类在新奇情境中实时展示社会学习技能,“无需使用任何预先收集的人类数据”。
具体来说,团队专注于一种特定形式的文化传播,被称为观察学习或(少次)模仿,它指的是复制身体动作。
DeepMind在一个名为GoalCycle3D的模拟环境中进行了实验,这是一个有着不平坦地形、小径和障碍物的虚拟世界,AI代理必须导航其中。
为了帮助AI学习,研究人员使用了强化学习。对于那些不熟悉巴甫洛夫在该领域工作的人来说,这种方法是基于为每一个促进学习和期望结果的行为提供奖励——在这个案例中,就是找到正确的路线。
在接下来的阶段,团队加入了专家代理(要么是硬编码的,要么是由人控制的),他们已经知道如何导航该模拟环境。AI代理很快理解到达目的地的最佳方式是向专家学习。
研究人员的观察有两点。首先,他们发现模仿专家的AI不仅学得更快,而且还将所学的知识应用到其他虚拟路径上。其次,DeepMind发现即使在没有专家的情况下,AI代理仍然可以使用它们的新技能,据研究作者称,这构成了社会学习的一个例子。
尽管作者指出还需要更多的研究,但他们相信他们的方法可以为“文化进化在人工智能发展中发挥算法作用”铺平道路。他们也期待人工智能与文化进化心理学领域之间进一步的跨学科合作。
尽管还处于初期阶段,DeepMind的突破可能对人工智能产业具有重大意义。这样的进步有潜力减少算法的传统资源密集型训练,同时提高它们的问题解决能力。它还提出了人工智能是否可能学会获得人类思维的社会和文化元素的问题。