人类的周边视觉能力赋予了我们观察并识别视线外形状的独特优势,即便这些形状的细节并不清晰。这种能力在诸多场合中发挥着关键作用,尤其是在驾驶时侦测侧面接近的车辆。相比之下,人工智能系统一直缺乏这种周边视觉能力。然而,麻省理工学院的研究人员最近取得了一项重要突破,他们开发出一种方法,能够模拟人类的周边视觉,并将其应用于机器学习模型中。
研究团队开发了一个专门的图像数据集,用于训练机器学习模型以模拟人类的周边视觉。这一技术的引入显著提升了模型在检测视线边缘物体方面的能力,尽管其性能尚未达到人类的水平。
值得注意的是,与人类的视觉机制不同,物体的大小和视觉场景中的杂乱程度对人工智能模型的性能影响相对较小。这一发现引发了研究人员对于人工智能与人类视觉机制差异的好奇与探索。
“我们发现,尽管我们训练了多种不同的模型,并且它们的性能有所改善,但它们的表现仍然无法完全媲美人类。”该研究的论文合著者Vasha DuTell表示,“这让我们思考,这些模型中究竟缺少了什么关键要素?”
解答这个问题对于构建更接近于人类视觉机制的机器学习模型至关重要。除了提升驾驶安全性外,这些模型还可能为开发更便于人类查看的显示器提供技术支持。此外,对人工智能模型中周边视觉机制的深入理解,也有助于研究人员更精准地预测人类行为。
“如果我们能够深入理解周边视觉的本质,并成功将其建模,那么这将有助于我们理解在视觉场景中,哪些特征会促使我们的眼睛移动以收集更多信息。”该研究的主要作者Anne Harrington补充说。
研究团队还包括电气工程和计算机科学研究生Mark Hamilton,博士后研究员Ayush Tewari,丰田研究所研究经理Simon Stent,以及多位资深教授和研究员。他们的合作使得这项研究在国际学习表征会议上得到了展示。
“每当人与机器进行交互,无论是在驾驶车辆、与机器人互动还是使用用户界面时,了解人类能够看到的内容都是至关重要的。”该研究团队的另一位成员Ruth Rosenholtz指出,“周边视觉在这种理解中扮演着核心角色。”
为了模拟人类的周边视觉,研究人员采用了一种名为纹理贴图模型的技术。该技术通过转换图像来模拟人类视觉在周边区域的信息损失。研究团队对该模型进行了改进,使其能够更灵活地模拟周边视觉,而无需事先了解人或人工智能的视线方向。
利用这种改进的技术,研究团队生成了一个庞大的图像数据集。这些图像在某些区域呈现出更明显的纹理,以模拟人类视线边缘的细节损失。随后,他们利用这个数据集训练了多个计算机视觉模型,并将其在物体检测任务上的表现与人类进行了对比。
“我们精心设计了一系列实验,以便在机器学习模型中测试周边视觉的效果。”Harrington解释说,“我们不想让模型去执行一个它们本不擅长的任务。”
在实验中,人类和模型被展示了一对经过转换的图像。这些图像中只有一张在周边区域包含目标物体。然后,参与者需要挑选出包含目标物体的图像。
“让我们感到惊讶的是,人类在检测周边物体方面的能力非常强。”Harrington补充道,“我们测试了多组图像,但人们总是能够轻松识别出目标物体。我们甚至不得不使用更小的物体来增加难度。”
研究团队发现,使用他们的数据集从头开始训练模型可以显著提高模型检测和识别物体的能力。即使对预训练的模型进行微调,也能获得一定的性能提升。然而,在每种情况下,机器的表现都未能完全达到人类的水平,特别是在检测远离视线中心的物体时表现尤为不佳。此外,模型的性能也不受物体大小和视觉场景杂乱程度的影响,这与人类的视觉机制存在显著差异。
Harrington解释说:“这可能表明,模型在执行这些检测任务时并没有像人类一样充分利用上下文信息。它们的策略可能有所不同。”
这一研究为人工智能领域带来了新的启示,即要构建更贴近人类视觉机制的机器学习模型,还需要深入研究并模拟人类的周边视觉机制。随着这一技术的不断发展和完善,未来的人工智能系统有望在驾驶辅助、人机交互等领域发挥更大的作用,为人类生活带来更多便利和安全。