谷歌研究人员通过让AI玩游戏来改善强化学习

2019年03月26日 由 bie管我叫啥 发表 422449 0
深度强化学习已被用于模拟社会规范的影响,创建非常擅长玩游戏的AI等,尽管强化学习功能如此多样,它有一个显而易见的缺点:效率低下。训练策略需要在模拟或现实环境中进行大量交互,这远远超过普通人学习任务所需的内容。

为了在视频游戏领域进行补救,谷歌研究人员最近提出了一种新的算法——模拟策略学习(Simulated Policy Learning),简称SimPLe,它使用游戏模型来学习选择动作的高质量策略。论文“Model-Based Reinforcement Learning for Atari”对这一算法进行了描述。

谷歌AI科学家ŁukaszKaiser和Dumitru Erhan表示,“在高层次上,SimPLe背后的想法是在模拟游戏环境中,学习游戏行为的世界模型和使用该模型优化策略(无模型强化学习)之间交替,这种算法背后的基本原理已经很好地建立,并已被用于许多基于模型的强化学习方法中。”

正如两位研究人员解释的那样,训练AI系统来玩游戏需要在给定一系列观察到的帧和命令(例如,“左”,“右”,“前进”,“后退”)的情况下预测目标游戏的下一帧。他们指出,一个成功的模型可以产生轨迹,这些轨迹可以用来训练游戏智能体策略,从而避免依赖昂贵的游戏内序列计算。



SimPLe就基于这个原理。它需要四帧作为输入来预测下一帧以及奖励,并且在得到充分训练之后,它会展示用于改进策略的动作,观察和结果的样本序列。Kaiser和Erhan指出,SimPLe仅使用中等长度的展示来最小化预测错误。

在持续相当于两小时游戏玩法(10万次互动)的实验中,使用SimPLe调整策略的智能体在两个测试游戏(Pong和Freeway)中获得了最高分,并产生了近乎完美的预测,最多可预测50步。

它们偶尔会努力捕捉游戏中小但高度相关的物体,从而导致失败,Kaiser和Erhan承认它还不符合标准强化学习方法的性能。但SimPLe在训练方面的效率提高了两倍,研究团队预计未来的工作将显着提高其绩效。

他们写道:“基于模型的强化学习方法的主要前景是,将其应用在交互成本高,速度慢或需要人工标记的环境中,例如多机器人任务。在这样的环境中,经过学习的模拟器可以更好地理解智能体的环境,并可以用新的,更好,更快的方式进行多任务强化学习。”

论文:

arxiv.org/abs/1903.00374

 
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消