NVIDIA开发强化学习算法,同时训练数千个机器人
2018年11月02日 由 浅浅 发表
417138
0
近年来,无模型深度强化学习算法已经产生了突破性的成果。然而,当前的算法需要大量的训练样本以及大量的计算能力来实现期望的结果。为了使训练更容易,NVIDIA的一组研究人员开发了一种GPU加速的强化学习模拟器,可以快速教授虚拟机器人完成类人任务。
[video width="1280" height="720" mp4="https://www.atyun.com/uploadfile/2018/11/Research-at-NVIDIA_-GPU-Accelerated-Robotic-Simulation-for-Distributed-Reinforcement-Learning.mp4"][/video]
凭借一个NVIDIA Tesla V100 GPU和一个CPU核心,该团队训练虚拟智能体在基于FleX GPU的物理引擎中运行不到20分钟的时间。这项工作使用的CPU核心比以前的工作少10到1000倍。模拟器甚至可以在单个GPU上同时支持数百到数千个虚拟机器人。
团队用与GPU仿真时间相似的设置测量了MuJoCo的单核CPU仿真时间,每次位于地上的28-DoF仿人器进行随机动作。使用的CPU是2.80GHz(运行)的Intel Core i9-7960X。
“与在每个CPU内核上模拟单个机器人不同,我们将所有模拟代理加载到一个GPU上的同一场景中,因此它们可以相互作用并相互碰撞,”研究人员表示,“在类人环境中,每个智能体的峰值GPU模拟帧时间小于0.02毫秒。我们使用FleX,完成了一个OpenAI Gymlike界面,为连续控制运动任务执行RL实验。”
GPU模拟速度。测量类人任务的GPU模拟速度,同时增加了模拟类人的数量。对于750个类人机器人,每秒的总模拟峰值在60KHz左右,每个智能体的最佳平均GPU模拟帧时间小于0.02ms。模拟时间的增长速度远远慢于人形机器人,由于CUDA内核启动,当只有少数类人机器人可用时,它在总步长时间中占主导地位。
使用OpenAI Roboschool和Deepmind Parkour环境,团队训练虚拟智能体奔向不断变化的目标,从跌倒中站起,并在复杂和不平坦的地形上奔跑。
之前的研究与新的NVIDIA研究相比:
训练类人机器人运行的资源和时间。
“与先前在CPU集群上训练运动任务的工作相比,之前使用数百到数千个CPU核心,而我们能够在不到20分钟的时间内在具有1个GPU和CPU核心的单台机器上运行,以训练类人机器人。机器GPU加速的RL模拟是基于CPU的可行替代方案,”该团队在他们的论文中解释道。
这项工作是NVIDIA正在进行的研究项目。该论文将于本周在瑞士苏黎世举行的机器人学习会议上发表。
团队表示他们接下来将在更复杂的类人环境中训练他们的虚拟智能体,允许类人机器人主动控制用于生成高度图的光线的方向。这可能会让虚拟智能体在半空中穿越障碍。