想象一下,你正在滑动查看手机上的照片,忽然你看到了一个起初你无法识别的图像。它看起来可能是沙发上的某样东西,这是枕头还是外套?几秒钟后你恍然大悟——当然了!那一团毛茸茸的就是你朋友的猫,Mocha。一些照片你一瞬间就能理解,为何这张猫的照片要困难得多?
麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究者们惊讶地发现,尽管视觉数据在从医疗保健到交通再到家用设备等关键领域极为重要,但对于人类来说图像的识别难度这个概念几乎完全被忽视了。在基于深度学习的人工智能进步的主要驱动因素一直是数据集,然而我们对数据如何推动大规模深度学习的进展了解甚少。
在需要理解视觉数据的现实世界应用中,尽管模型在当前数据集上表现良好,但人类在对象识别模型上的表现仍优于模型,包括那些明确设计用于挑战具有去偏图像或分布变化的机器的模型。这个问题仍然存在,部分原因是我们没有关于图像或数据集绝对难度的指导。如果不控制评估中使用的图像的难度,就很难客观地评估模型能力的提高。
为了弥补这一知识空白,David Mayo,电气工程和计算机科学专业的麻省理工学院博士生兼CSAIL成员,深入探讨了图像数据集的世界,探究为何某些图像对于人类和机器的识别比其他图像更加困难。“某些图像需要更长时间来识别,理解这个过程中大脑的活动及其与机器学习模型的关系,这一点至关重要。也许在我们当前的模型中缺少了复杂的神经电路或独特的机制,只有在挑战性视觉刺激测试中才会显现。这一探索对于理解和增强机器视觉模型至关重要,”Mayo说。
这导致了一种新的指标——“minimum viewing time”(MVT)的开发,该指标根据人们需要观看图像的时间来量化认出一个图像的难度。使用机器学习中流行的数据集ImageNet的一个子集以及测试对象识别鲁棒性的数据集ObjectNet,团队向参与者展示了从短至17毫秒到长至10秒不等的图片,然后让他们从50个选项中选择正确的对象。在进行了超过200000次图像呈现试验之后,团队发现,包括ObjectNet在内的现有测试集似乎偏向于更容易、MVT更短的图像,绝大多数基准性能来自于对于人类来说容易识别的图像。
该项目识别了模型性能中的有趣趋势——尤其是与规模化相关的趋势。更大的模型在简单图像上显示出相当大的改进,但在更具挑战性的图像上进展较少。结合了语言和视觉的CLIP模型脱颖而出,因为它们在向更人性化识别的方向发展。
“传统上,对象识别数据集倾向于更少复杂的图像,这种做法导致了模型性能指标的虚高,并不能真正反映模型的鲁棒性或其处理复杂视觉任务的能力。我们的研究揭示,更难的图像带来了更严峻的挑战,造成了一种通常在标准评估中未考虑的分布转移,”Mayo说。“我们发布了按难度标记的图像集合和自动计算MVT的工具,使得MVT可以添加到现有基准中并扩展到各种应用。包括在部署现实世界系统之前衡量测试集的难度,发现图像难度的神经关联,并推进对象识别技术以缩小基准和现实世界性能之间的差距。”
“我最大的一个收获是,我们现在有了另一个评估模型的维度。我们希望的模型能够识别任何图像,即使是对人来说难以识别的图像。我们的结果显示,如今的最先进技术也无法做到这一点,而且我们当前的评估方法都没有能力告诉我们何时能实现这一目标,因为标准数据集过分倾向于简单的图像,”电气工程和计算机科学专业的麻省理工学院研究生,该论文的第一作者Jesse Cummings表示。
几年前,这个项目背后的团队确认了机器学习领域的一个重大挑战:模型在处理分布之外的图像,或者训练数据中没有很好代表的图像时遇到困难。于是有了ObjectNet,一个由现实生活环境中采集的图像组成的数据集。该数据集通过消除其他基准评测中存在的偶然相关性,例如对象与其背景之间的相关性,来强调机器学习模型与人类识别能力之间的表现差距。ObjectNet让人们看到了机器视觉模型在数据集和现实世界应用中的性能差距。许多研究人员和开发人员将其投入使用,从而提高了模型性能。
快进到现在,该团队用MVT将他们的研究推进了一步。与传统方法不同,这种新方法通过对比模型对最容易和最困难图像的反应来评估其性能。研究还进一步探讨了如何解释和测试图像难度与人类视觉处理的相似性。使用诸如c-score、预测深度和对抗鲁棒性等指标,团队发现网络对更难的图像进行了不同的处理。“虽然有一些可观察到的趋势,例如更容易识别的图像更具典型性,但图像难度的全面语义性解释仍然让科学界困惑不已,”Mayo说。
例如,在医疗保健领域,理解视觉复杂性的重要性变得尤为突出。人工智能模型解释医学图像(如X射线)的能力取决于图像的多样性和难度分布。研究者倡导针对专业人士进行细致的难度分布分析,确保根据专家标准而非外行解释来评估AI系统。
展望未来,研究者们不仅专注于探索增强人工智能预测图像能力的方法。团队正在研究与观看时间难度的相关性,以便生成图像的更难或更容易版本。
尽管该研究取得了重大进展,研究人员承认仍存在局限性,特别是在将对象识别与视觉搜索任务分离方面。当前的方法确实集中在识别对象上,排除了复杂图片所引入的复杂性。
“这种全面的方法解决了长期以来客观评估对象识别方面朝向人类水平性能发展的挑战,并为理解和推进该领域开辟了新的途径,”Mayo说。“这项工作有潜力将Minimum Viewing Time指标适应于各种视觉任务,为对象识别的更鲁棒、更人性化的表现铺平了道路,确保模型真正受到考验,并为理解现实世界的视觉复杂性做好准备。”