随着人工智能领域的不断发展,它已经进入了包括机器人在内的许多领域。视觉位置识别(VPR)是评估机器人状态的一项关键技能,广泛应用于各种机器人系统,如可穿戴技术、无人机、自动驾驶汽车和地面机器人。利用视觉数据,VPR可使机器人识别和理解它们当前的位置或在周围环境中的位置。
实现VPR在各种环境下的通用应用一直是困难的。与其训练相似的情境(如城市驾驶场景)时表现良好,但这些技术在其他环境(如水中或空中环境)中的有效性显着下降。人们一直在努力设计一种通用的VPR解决方案,该解决方案可以在任何环境下,包括空中、水下和地下环境,任何时间都可以无故障地运行,能够适应昼夜或季节变化等变化,并且从任何角度都不受视角变化的影响,包括完全相反的视角。
为了解决这些限制,一组研究人员引入了一种新的基准VPR方法,称为AnyLoc。该团队研究了从大规模预训练模型中获取的视觉特征表示,他们称之为基础模型,作为依赖于VPR特定训练的替代方法。虽然这些模型最初并没有针对VPR进行训练,但它们确实存储了丰富的视觉特征,这些特征可能有一天会成为一个全面的VPR解决方案的基石。
在AnyLoc技术中,选择具有所需不变性属性的最佳基础模型和视觉特征,其中不变性属性包括模型在环境或视角发生变化时保持特定视觉质量的能力。然后将VPR文献中常用的局部聚合方法与这些选择的属性合并。如果要对位置识别做出更有根据的结论,需要使用局部聚合技术整合来自不同视觉输入区域的数据。
AnyLoc的工作原理是将基础模型丰富的视觉元素与局部聚合技术融合在一起,使AnyLoc装备的机器人在各种环境中具有极强的适应性和实用性。它可以在各种环境中,在一天或一年的不同时间,从不同的角度进行视觉定位识别。研究小组将研究结果总结如下。
通用VPR解决方案:AnyLoc 已被提出作为 VPR 的新基准,它可以无缝地跨12个不同的数据集,包括地点、时间和视角变化。
特征—方法协同:将自监督特征(如DINOv2)与无监督聚合(如VLAD或GeM)相结合,比直接使用现成模型的每个图像特征产生显著的性能提升。
语义特征描述:分析聚合局部特征的语义属性可发现潜在空间中的独特领域,从而增强 VLAD 词汇构建并提高性能。
稳健评估:该团队在具有挑战性的VPR条件下(如昼夜变化和相反视角)对不同的数据集进行了 AnyLoc 评估,为未来的通用VPR研究奠定了坚实的基础。