OpenVLA:推动机器人技术的开源通用模型

2024年06月19日 由 daydream 发表 1036 0

基础模型在机器人技术方面取得了巨大进展,使得能够创建视觉-语言-动作(VLA)模型,这些模型能够泛化到训练数据之外的对象、场景和任务。然而,这些模型的采用受到了限制,原因是它们的封闭性质以及缺乏部署和适应新环境的最佳实践。


微信截图_20240619110548


为了应对这些挑战,斯坦福大学、加州大学伯克利分校、丰田研究院、谷歌DeepMind等实验室的研究人员推出了OpenVLA,这是一个在现实世界机器人演示的多样化集合上训练的开源VLA模型。


据研究人员称,OpenVLA在机器人任务上的表现优于其他类似模型。此外,它可以轻松地进行微调以适应涉及多个对象的多任务环境。并且,它已被设计为利用优化技术,在消费级GPU上运行,并以极小的成本进行微调。


随着基础模型成为机器人技术的基石,OpenVLA可以使这些模型更加易于访问和定制,以满足更广泛的公司和研究实验室的需求。


用于机器人技术的视觉-语言-动作模型


经典的机器人操作学习策略很难泛化到训练数据之外。它们对场景干扰或未见过的对象不够健壮,并且难以执行与训练内容略有不同的任务指令。


大型语言模型(LLMs)和视觉语言模型(VLMs)由于其从互联网规模的预训练数据集中捕获的世界知识而具备这种泛化能力。最近,研究实验室开始使用LLMs和VLMs作为训练机器人策略的构建模块之一。


一种流行的技术是将预训练的LLMs和VLMs作为模块化系统中任务规划和执行的组件。另一个方向是从头开始训练视觉-语言-动作模型(VLAs),以直接生成机器人控制动作。VLAs的示例包括RT-2和RT-2-X,它们为通用机器人策略设定了新的标准。


然而,当前的VLAs面临两个主要挑战。首先,它们是封闭的,对其架构、训练过程和数据混合的可见性很低。其次,缺乏将VLAs部署和适应到新机器人、环境和任务的最佳实践。


“我们认为,为了为未来的研究和发展奠定坚实的基础,机器人技术需要开源的、支持有效微调和适应的通用VLAs,类似于现有的围绕开源语言模型的生态系统,”研究人员写道。


OpenVLA


OpenVLA是一个基于Prismatic-7B视觉语言模型的70亿参数开源VLA。它由一个两部分的视觉编码器组成,该编码器从输入图像中提取特征,并使用Llama-2 7B模型处理语言指令。


为了创建OpenVLA,研究人员在Open-X Embodiment数据集的970,000个机器人操作轨迹的大型数据集上微调了Prismatic模型,这些数据集涵盖了广泛的机器人实体、任务和场景。他们还配置了模型以输出可以映射到机器人动作的特殊标记。


微信截图_20240619110626


OpenVLA接收自然语言指令(如“擦拭桌子”)以及通过相机捕获的输入图像。该模型根据指令和视觉输入进行推理,并决定哪一系列动作标记将使机器人完成所需的任务。


据研究人员称,OpenVLA在WidowX和Google Robot实体上的表现优于先前的最先进的VLA模型——550亿参数的RT-2-X模型。


研究人员还在七个操作任务上实验了VLAs的高效微调策略,这些任务从物体抓取和放置到清洁桌子不等。微调后的OpenVLA策略优于微调后的预训练策略。微调OpenVLA还提高了需要将语言指令映射到具有多个对象的多任务行为的指令的性能。


“值得注意的是,大多数先前的工作仅在狭窄的单指令任务或多样化的多指令任务中取得强大的性能,导致成功率差异很大,”研究人员写道。“OpenVLA是唯一在所有测试任务中至少达到50%成功率的方法,这表明它可以成为模仿学习任务的强大默认选项,特别是如果它们涉及一系列多样化的语言指令。”


研究人员还通过优化技术使OpenVLA更加易于访问和计算高效。他们使用低秩适应(LoRA)在单个A100 GPU上在10-15小时内对新任务进行了OpenVLA的微调,与完全微调相比,计算量减少了8倍。通过模型量化,他们能够减小OpenVLA模型的大小,并在消费级GPU上运行它们,而不会显著降低性能。


开源OpenVLA


研究人员已经将所有模型、部署和微调笔记本以及用于大规模训练VLAs的OpenVLA代码库开源,“希望这些资源能够推动未来探索和适应机器人VLAs的工作,”他们写道。该库支持在单个GPU上微调模型,并在多节点GPU集群上训练数十亿参数的VLAs。它还与现代优化和并行化技术兼容。


未来,研究人员计划通过调整OpenVLA以支持多个图像和本体感受输入以及观测历史来改进它。他们还建议,使用在交错图像和文本数据上预训练的VLMs可能会促进这种灵活输入的VLA微调。

文章来源:https://venturebeat.com/ai/openvla-is-an-open-source-generalist-robotics-model/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消