Facebook能快速训练机器人的AI模式
2019年10月08日 由 TGS 发表
179978
0
一个双臂机器人如何完成像打开瓶子这样的任务?它先是需要一只手握住瓶子的底部,然后另一只手握住瓶盖,把它拧下来。最近Facebook人工智能研究的一个团队,试图让两个机器锯木工臂具备从数据库中选择适当步骤来完成任务目标的能力。在每一步中决定使用哪种技能以及使用什么参数(例如,施加力的位置、力的大小,或移动到的目标位置)涉及复杂性智慧,但该团队却说,他们的方法学习效率极高,可以在短短几个小时的内训练出这样的操作技能。
该团队的主要观点是,对于许多任务,学习过程可以分为两部分:
他们断言,使用这种方法可以提高学习速度,其中部分原因是来自给定任务不同版本的数据,可以用来提高共享技能。与此同时,他们还表示,该方法可以在相关任务之间转移学习模式。
在实验中,安装了摄像头并由Facebook的PyRobot开源机器人平台控制的Sawyer手臂的任务是操纵9个家庭工具(如擀面杖、托盘和塑料盒子),这需要两个平行颚夹持器进行交互。尽管必须从原始的视觉图像中学习,但该系统却快速学会了使用2000项技能操作大多数物品,在大约4-10个小时的训练中,成功率超过90%。
研究人员给上述两个机器人手臂提供了一个通用的技能库,如扭转、举起和伸展,可以应用到诸如横向举起、挑选、打开和旋转的任务中,这些任务涉及到不同的物体、几何图形和初始姿势。通过使用几何和本体感受特征(关节位置、关节速度、末端执行器姿态)等低维输入数据进行训练,在模拟环境中学习这些模式,然后将其转换为模拟和现实世界中的视觉输入,进而达成既定任务目标。
“我们研究了如何利用状态无关的技能序列来大大提高无模型强化学习的样本效率。即使状态空间和最佳参数化(如抓取姿势)都有显著差异,但由于模式是固定的,所以它只需要学习每种技能的(依赖于观察的)参数,就足够了。”合著者写道,“此外,我们也已经通过实验证明,将在模拟中学习到的技能序列转移到现实世界的任务中,能够非常有效地解决图像中的稀疏奖励问题,这使得训练真正的机器人来执行复杂的技能任务(如双手操作)成为可能。”