照片是2D的,但自动驾驶汽车和其他技术必须导航3D世界。研究人员开发出了一种新方法,帮助AI从2D图像中提取3D信息,使相机成为这些新兴技术中更有用的工具。
北卡罗莱纳州立大学电气和计算机工程学院的吴教授在该工作的一份论文中表示:“现有的从2D图像中提取3D信息的技术已经很好了,但还不够好。我们的新方法名为MonoXiver,可以与现有技术结合使用,并显著提高其准确性。”
这项工作对于自动驾驶汽车等应用尤其有用。这是因为相机比其他用于导航3D空间的工具(如激光雷达)更便宜。因为相机比这些其他技术更经济实惠,自动驾驶汽车的设计者可以安装多个相机,增加系统的冗余性。
但前提是自动驾驶汽车中的AI能够从相机拍摄的2D图像中提取3D导航信息。这就是MonoXiver的作用所在。
现有的从2D图像提取3D数据的技术(例如吴教授和他的合作者开发的MonoCon技术)使用“边界框”。具体来说,这些技术训练AI扫描2D图像,并在2D图像中的物体周围放置3D边界框,例如街上的每辆汽车。
这些边界框是立方体,有八个点,类似于鞋盒的每个角。边界框帮助AI估计图像中物体的尺寸以及每个物体与其他物体的位置关系。换句话说,边界框可以帮助AI确定汽车大小以及其在道路上与其他车辆的位置。
然而,现有程序的边界框并不完美,经常无法包括出现在2D图像中的车辆或其他物体的部分。
新的MonoXiver方法将每个边界框作为起点或锚点,并让AI对每个边界框周围的区域进行第二次分析。这个第二次分析会使程序产生许多围绕锚点的附加边界框。
为了确定这些次要边界框中哪个最好地捕捉到了“丢失”的物体部分,AI进行两次比较。一个比较观察每个次要边界框的“几何”形状,看它是否包含与锚点框内形状一致的形状。另一个比较观察每个次要边界框的“外观”,看它是否包含与锚点框内的视觉特征相似的颜色或其他视觉特征。
吴教授说:“这里的一项重要进展是MonoXiver允许我们非常高效地运行这种自上而下的采样技术,即创建和分析次要边界框。”
为了测量MonoXiver方法的准确性,研究人员使用了两个2D图像数据集进行测试:已经建立的KITTI数据集和更具挑战性的大规模Waymo数据集。
吴教授说:“我们将MonoXiver方法与MonoCon和另外两个旨在从2D图像中提取3D数据的现有程序结合使用,MonoXiver显著提高了所有三个程序的性能。与MonoCon结合使用时,我们获得了最佳性能。”
吴教授说:“还要注意的是,这种改进带来的计算开销相对较小。”例如,单独运行时,MonoCon可以以每秒55帧的速度运行。当加入MonoXiver方法时,速度降至每秒40帧,这对实际应用来说仍然足够快。
“我们对这项工作感到兴奋,并将继续评估和调优它,以在自动驾驶汽车和其他应用中使用”,吴教授说道。