DeepMind用基于AI的元强化学习框架研究多巴胺在学习过程中的作用
2018年05月15日 由 浅浅 发表
764739
0
最近,AI已经应用到一系列视频游戏中,如Atari经典的Breakout和Pong。尽管这样的表现令人印象深刻,但人工智能仍然依靠数千小时的游戏时间来达到并超越人类玩家的表现。相比之下,人类玩家通常可以在几分钟内粗浅掌握以前从未玩过的视频游戏。
为什么大脑能够做得更多这样的问题已经引起了元学习理论,即“学会学习(learning to learn)”的关注。这一理论认为研究者在两个时间尺度上学习:在短期内,专注于学习具体的例子,而在更长的时间尺度上,学习完成任务所需的抽象技能或规则。正是这种组合有助于高效地学习,并将这些知识快速灵活地应用于新任务。在人工智能系统中重新创建这种元学习结构,即称为元强化学习,在促进智能体快速,一次性学习方面卓有成效。然而,允许这个过程在大脑中发生的具体机制在神经科学中仍然无法解释。
在Nature Neuroscience的新论文中,研究者使用AI研究中开发的元强化学习框架来研究多巴胺在帮助研究者学习中对大脑的作用。多巴胺通常被称为大脑的快乐信号,与AI强化学习算法中使用的奖励预测误差信号类似。这些系统学会按照奖励的指导进行反复试验。研究者指出多巴胺的作用不仅仅是利用奖励来了解过去行为的价值,它在前额叶皮层区发挥着不可或缺的作用,使研究者能够有效,快速,灵活地学习新任务。
研究者通过虚拟重建神经科学领域的六个元学习实验来测试研究者的理论,其中,每个实验都需要一个智能体执行基础原则(或一组技能)相同但某些维度不同的任务。研究者使用标准深度强化学习技术(代表多巴胺的作用)训练了一个递归神经网络(代表前额皮质),然后比较了复发网络的活动动态与从以前神经科学实验中发现的实际数据。递归神经网络适用于元学习,因为它们能够内化过去的行为和观察,然后在训练时借鉴这些经验。
研究者重新创建的实验被称为Harlow实验,这是一个20世纪40年代的心理学测试,用于探索元学习的概念。在最初的测试中,给一组猴子两个不熟悉的物体以供选择,其中一个物体会有食物奖励。他们将这两个对象显示六次,每次放置都是随机的,所以猴子必须知道选择哪个对象才会有食物奖励。然后展示了两个全新的物品,再次只有一个会有食物奖励。在这次训练过程中,猴子制定了一种策略来选择奖励关联对象:第一次随机选择,然后基于奖励反馈选择特定对象,而不是通过左侧或右侧位置来选择。
当研究者使用虚拟计算机屏幕和随机选择的图像模拟一个非常相似的测试时,研究者发现研究者的元学习RL智能体似乎以类似于Harlow实验中的动物的方式学习,即使呈现的是从未出现过的全新图像。
事实上,研究者发现元学习RL智能体可以学习如何快速适应不同规则和结构的任务。而且由于网络学会了如何适应各种任务,它还学习了关于如何有效学习的一般原则。
重要的是,研究者发现大多数学习在递归神经网络中发生,这支持了研究者的猜想,即多巴胺在元学习过程中扮演的角色比过去认为的更重要。多巴胺传统上被理解为加强前额系统中的突触联系,从而加强特定的行为。在AI中,这意味着类多巴胺奖励信号在神经网络中调整人工突触权重,因为它学习了解决任务的正确方法。然而,在研究者的实验中,神经网络的权重被冻结,这意味着它们在学习过程中不能被调整,然而,元学习RL智能体仍然能够解决并适应新的任务。这表明研究者多巴胺奖励不仅用于调整权重,也传达和编码关于抽象任务和规则结构的重要信息,并更快适应新任务。
神经科学家长期观察到类似的前额叶皮层神经激活模式,这种模式适应快且灵活,科学家也一直在努力寻找能够解释这种情况的原因。前额叶皮层不依赖缓慢突触体重变化来学习规则结构,但是使用直接由多巴胺编码的基于抽象模型的信息,这一想法为其多功能性提供了更令人满意的理由。
在证明AI中存在元强化学习的关键成分也存在于大脑中这一假说时,研究者提出了一种理论,该理论不仅与已知的关于多巴胺和前额皮层的那些信息相符,而且还解释了一系列神经科学和心理学的研究发现。尤其该理论为一些问题提供了新的线索,例如大脑如何结构化,基于模型的学习是如何出现的,为什么多巴胺本身含有基于模型的信息,以及前额叶皮质中的神经元如何调整为与学习相关的信号。利用人工智能的见解,可以用来解释神经科学和心理学的发现。展望未来,我们预期从反方向获益,通过设计新的强化学习智能体学习模型,从特定的大脑回路中得到启发。