触觉传感在机器人技术领域占据着举足轻重的地位,它使机器人能够与环境实现有效的理解和互动。然而,当前基于视觉的触觉传感器仍面临一系列重大挑战。传感器的多样性,包括形状、光照条件和表面标记的差异,使得构建通用解决方案变得尤为困难。传统的触觉模型往往针对特定任务或传感器而设计,这限制了它们在不同应用中的扩展性和效率。此外,获取力度、滑动等关键属性的标记数据既耗时又资源密集,进一步阻碍了触觉传感技术的广泛应用。
针对这些挑战,Meta AI推出了Sparsh,这是首个基于视觉触觉传感的通用编码器。Sparsh源自梵语中的“触摸”一词,恰当地象征了从传感器特定模型向更灵活、可扩展方法的转变。借助自监督学习(SSL)的最新进展,Sparsh创建了适用于多种基于视觉的触觉传感器的触摸表示。与依赖特定任务标记数据的传统方法不同,Sparsh使用了超过46万个未标记的触觉图像进行训练,这些图像涵盖了各种触觉传感器类型。通过减少对标记数据的依赖,Sparsh为传统触觉模型无法覆盖的更多应用领域打开了大门。
Sparsh基于多种最先进的自监督学习模型构建,如DINO和Joint-Embedding Predictive Architecture(JEPA),这些模型经过调整以适应触觉领域的需求。这种方法使Sparsh能够在不同类型的传感器(如DIGIT和GelSight)上进行泛化,并在多个任务上表现出色。超过46万个触觉图像的预训练编码器家族作为骨干网络,极大地降低了对手动标记数据的需求,实现了更高效的训练。
Sparsh框架还包括TacBench,这是一个包含六个以触摸为中心的任务基准,涵盖力度估计、滑动检测、姿态估计、抓握稳定性、纺织品识别和灵巧操作。这些任务评估了Sparsh模型与传统传感器特定解决方案相比的表现,结果显示Sparsh在性能上实现了显著提升(平均达到95%),而使用的标记数据仅为其他模型所需数据的33-50%。
Sparsh在机器人技术和人工智能领域具有重要意义。触觉传感在改进物理交互和灵巧性方面发挥着关键作用。通过克服传统模型对标记数据的依赖,Sparsh为更高级的应用铺平了道路,包括手部操作和灵巧规划。评估结果显示,在基准场景中,Sparsh的性能优于端到端的任务特定模型超过95%。这意味着装备有Sparsh动力触觉传感器的机器人可以在仅有少量标记数据的情况下更好地理解其物理环境。此外,Sparsh在各种任务中表现出高效可靠的特点,包括在滑动检测(在测试的模型中达到最高的F1分数)和纺织品识别方面,为实际机器人操作任务提供了强大的解决方案。
Meta推出Sparsh标志着人工智能在推动物理智能方面迈出了重要一步。通过发布这个通用触摸编码器家族,Meta旨在赋予研究社区构建可扩展解决方案的能力,以应用于机器人技术和人工智能领域。Sparsh依赖自监督学习,避免了收集标记数据的昂贵和繁琐过程,为创建复杂的触觉应用提供了更高效的路径。Sparsh在任务和传感器之间的泛化能力,正如在TacBench基准中展示的那样,凸显了其变革潜力。随着Sparsh的广泛应用,我们有望在各个领域看到不同程度的进展,从工业机器人到家庭自动化,其中物理智能和触觉精度对于实现有效性能至关重要。