英特尔开发强化学习系统,可实现控制3D类人等复杂AI任务
2019年06月12日 由 bie管我叫啥 发表
763692
0
英特尔AI实验室和俄勒冈州立大学协作机器人和智能系统研究所展开一项研究,结合了多种方法来制作性能更好的强化学习系统,可应用于机器人,自主车辆功能控制和其他复杂AI任务。
该系统名为协同进化强化学习(CERL),可以在Humanoid、OpenAI的Hopper和Walker2D等基准测试中实现更好的性能,比基于梯度的算法或用于强化学习的进化算法更优秀。
使用CERL方法,研究人员能够使一个3D类人智能体在OpenAI的类人基准上直立行走。
这些结果部分是通过训练系统实现的,这些训练系统探索更多的强化学习训练环境,以寻求奖励并完成特定任务。
环境探索对于确保记录各种经验并考虑行动方案非常重要。研究人员在一篇解释CERL如何运作的论文中表示,与环境探索相关的问题已经出现,特别是随着使用深度强化学习来完成具有挑战性的现实任务的流行,这些问题变得更加突出。
论文写道,“神经进化将整个过程联系起来,产生一个超出任何个体学习者能力的自然学习者。”
CERL结合了基于策略梯度的强化学习和进化算法,然后在每批或一代训练系统中选择表现最佳的神经网络。这样,研究人员可以使用最强大的神经网络来创建新一代系统,并且可以将计算资源分配给实现最佳性能的算法。
CERL还结合了重放缓冲区,用于存储学习者在环境中的体验,以便创建单个重放缓冲区并在系统之间共享体验,从而实现比以前方法更高的样本效率。
论文:
arxiv.org/abs/1905.00976