无需预训练,AI算法让机器人学会自行穿过熟悉或陌生的环境
2019年01月02日 由 浅浅 发表
565153
0
AI系统让机器人具备了像人类一样灵巧地掌握和操纵物体的能力,如今,研究人员表示,他们开发出了一种算法,通过这种算法,机器可能学会在环境中自主行动。
在新发表的论文“Learning to Walk via Deep Reinforcement Learning”中,来自加利福尼亚大学,伯克利和谷歌大脑的研究人员,描述了一个AI系统,教一个四足机器人穿越熟悉和陌生的地形。
论文作者表示:“深度强化学习可以用于自动获取一系列机器人任务的控制器,从而实现对策略的端到端学习,将感官输入映射到低级操作。如果我们可以直接在现实世界中从头开始学习运动步态,原则上我们可以获得适合每个机器人甚至个别地形的控制器,从而实现更好的灵活性,能效和鲁棒性。”
强化学习需要大量数据,在某些情况下需要数万个样本才能获得良好的结果。并且微调机器人系统的超参数通常需要多次训练,随着时间的推移,这可能会损坏机器人。
“深度强化学习已被广泛用于学习模拟中的运动策略,甚至将它们转移到现实世界的机器人中,但由于模拟中的差异,这不可避免地导致性能损失,并且需要大量的手动建模,在现实世界中使用这些算法已经证明具有挑战性。”
[video width="854" height="480" mp4="https://www.atyun.com/uploadfile/2019/01/SAC-on-Minitaur-Training.mp4"][/video]
为了寻求一种方法,可以让一个系统在没有模拟训练的情况下学习运动技能,他们开发了一个名为最大熵RL(maximum entropy RL)的强化学习框架。最大熵RL优化学习策略,以最大化预期收益和预期熵,或正在处理的数据的随机性度量。
在RL中,AI智能体通过对策略中的行为进行采样并获得奖励,不断寻找行为的最优路径,即状态和行为的轨迹。最大熵RL激励政策更广泛地探索。参数,如温度,决定了熵相对于奖励的相对重要性,从而确定它的随机性。
这样的方法并不是一开始就会顺利。因为熵和奖励之间的权衡直接受到奖励函数的规模的影响,而奖励函数的规模又影响学习速率,所以通常必须针对每个环境调整缩放因子。研究人员的解决方案是通过两个阶段之间的交替来自动化温度和奖励规模调整:数据收集阶段和优化阶段。
结果不言自明。在OpenAI ’s Gym(用于训练和测试AI智能体的开源模拟环境)进行的实验中,作者的模型在四个连续运动任务(HalfCheetah、Ant、Walker和Minitaur)中取得了几乎相同甚至更好的性能。
第二次在真实世界的测试中,研究人员将他们的模型应用于四足机器人Minitaur,具有八个执行器,测量电机角度的电机编码器,以及一个测量方向和角速度的惯性测量单元(IMU)。
他们开发了一个管道,包括(1)计算机工作站,更新神经网络,从Minitaur下载数据,并上传最新政策;(2)机器人上的Nvidia Jetson TX2执行上述策略,收集数据,并通过以太网将数据上传到工作站。
经过两个小时的16万步后,一个奖励前进速度和惩罚大角加速度和俯仰角的算法,他们成功地训练Minitaur在平坦的地形上行走,在木块等障碍物上行走,以及上坡和台阶,这些都没有在训练中出现过。
研究人员表示,“该深度强化学习算法,首次表现出在现实世界中学习的四足机器人无需任何模拟或预训练。”
论文:
arxiv.org/pdf/1812.11103.pdf