RoboNet的大规模机器人学习数据集
2019年12月09日 由 KING 发表
333514
0
在过去的十年中,我们已经看到深度学习系统为各种感知和推理问题提供了转化解决方案,例如从识别图像中的对象到识别和翻译人类语音。
虽然深度强化学习方法可以学习多种技能,但要训练来自目标环境的大量数据是非常困难的。将数据驱动的方法应用于机器人技术不仅需要开发强大的强化学习方法,还需要访问大型多样的机器人数据集。
不幸的是,事实证明,在强化学习和机器人技术中设计和采用大型数据集具有挑战性。由于每个机器人实验室都有自己的硬件和实验装置,因此,如何向每个实验室提供有用的机器人技术数据集成为一个难题。因此,我们创建了RoboNet,这是一个可扩展且多样化的机器人交互数据集,它收集了四个不同的研究实验室的数据。这项工作的协作性质使我们能够轻松地在各种实验室设置中跨各种对象,机器人硬件和摄像机视点捕获各种数据。
收集RoboNet
RoboNet包含1500万个视频帧,这些视频帧是由在桌面环境中与不同对象进行交互的不同机器人收集的。每帧都包括机器人相机记录的图像,手臂姿势,力传感器读数以及抓取器状态。在每次试验之间,采集环境(包括摄像机视图,桌子或垃圾箱的外观以及机器人前面的对象)会有所不同。由于收集是完全自主的,因此可以在多个机构之间廉价地收集大量款项。
我们如何使用RoboNet?
在收集了多样化的数据集之后,我们将通过实验研究如何将其用于使一般技能学习转移到新环境中。首先,我们对来自RoboNet的数据子集进行视觉动力学模型的预训练,然后对它们进行微调,以使用少量新数据在看不见的测试环境中工作。建成的测试环境都包括不同的实验室设置,新的摄像头和视点,伸出的机器人以及在数据收集结束后购买的新颖对象。
调整后,我们使用基于视觉预见模型的强化学习算法将学习到的动力学模型部署到测试环境中,以执行控制任务,例如拾取和放置对象。现在,我们可以从数字上评估我们的训练前控制器是否可以比随机初始化的控制器更快地掌握新环境中的技能。在每种环境中,我们使用一组标准的基准测试任务,将经过预训练的控制器的性能与仅根据新环境中的数据进行训练的模型的性能进行比较。结果表明,经过微调的模型完成基准测试任务的可能性比没有RoboNet训练的模型高约4倍。此外,经过预训练的模型甚至可以略微胜过从头开始在测试环境中获得的大量数据(5-20倍)上进行训练的模型。这表明与从头开始训练相比,从RoboNet进行的转移确实提供了很大的性能提升!
这项工作迈出了创建学习型机器人代理的第一步,该代理可以在广泛的环境和不同的硬件中运行。虽然我们的实验主要探索基于模型的强化学习,但我们希望RoboNet能够激发更广泛的机器人和强化学习社区,以研究如何扩展基于模型或无模型的RL算法,以满足现实世界的复杂性和多样性。