高尔夫球还是茶壶?神经网络能否通过形状正确识别物体
2019年01月14日 由 浅浅 发表
542138
0
深度学习计算机网络到底有多聪明?这些机器与人脑的模仿程度有多接近?加州大学洛杉矶分校认知心理学家团队在PLOS计算生物学期刊上表示,近年来,虽然已经有了很大的进步,但仍有很长的路要走。
神经网络的支持者热衷于使用这些网络来完成许多个人任务,然而,在这项研究中的五个实验的结果表明,网络很容易被欺骗,并且网络使用计算机视觉识别物体的方法与人类视觉大不相同。
“这些机器有严重的局限性,我们需要了解这些,”加州大学洛杉矶分校的心理学教授,该研究的高级作者Philip Kellman说。
第一个实验
研究者展示了最好的深度学习网络之一VGG-19,即动物和物体的彩色图像。图像被更改了,例如,茶壶的形状用高尔夫球的表面覆盖;斑马条纹覆盖在骆驼上,VGG-19对它的首选项进行了排名,在40个对象中只有5个选择了正确的选项。
“我们可以很容易地欺骗这些人工系统,”共同作者,加州大学洛杉矶分校心理学教授Lujing Lu说。“它们的学习机制远没有人类的思维复杂。”
对于茶壶的例子来说,VGG-19认为只有0.41%的可能性是茶壶。它的首选是高尔夫球,这表明AI网络比起形状,更重视物体的纹理。
Kellman说:“选择高尔夫球是绝对合理的,但令人担忧的是,茶壶没有出现在选择中,它完全没有考虑形状。”但人类主要从形状上识别物体,研究人员怀疑计算机网络使用的是另一种方法。
第二个实验
心理学家向VGG-19,以及排名第二深度学习网络AlexNet展示了玻璃雕像的图像。VGG-19在所有测试两个网络的实验中表现更好。这两个网络都经过训练,可以使用名为ImageNet的图像数据库识别对象。
然而,两个网络都表现不佳,无法识别玻璃雕像。VGG-19和AlexNet都没有正确地将雕像的形状确定为首选项。一个大象雕像被两个网络评为大象几率为0%。大多数排在前列的选项令研究人员感到困惑,平均而言,AlexNet在1000个选项中把正确答案排在了第328位。
第三个实验
研究人员向VGG-19和AlexNet展示了40幅黑白色轮廓图。这三个实验都旨在发现网络是否通过其形状识别物体。这些网络在识别诸如飞机,蝴蝶和香蕉等物品方面很差。
但该实验的目的不是欺骗网络,而是要了解他们是否以与人类相似的方式,还是以不同的方式识别物体。
第四个实验
研究人员为两个网络展示40个图像,这次是纯黑色图像。
对于黑色图像,网络表现得更好,在前五个选项中产生正确的对象标签的概率大约为50%。研究人员认为这些网络在黑色物体方面的表现要好得多,因为这些物品缺乏Kellman所说的“内部轮廓”,而这些边缘会混淆机器。
第五个实验
研究人员打乱了图像,使其难以识别,但它们保留了一些物体碎片。研究人员选择了VGG-19网络最初获得的六张图像,人类发现这些难以辨认。VGG-19识别了六张图片中的五张。
作为第五个实验的一部分,除了VGG-19之外,研究人员测试了加州大学洛杉矶分校的本科学生。十名学生识别黑色轮廓的物体,有些是被打乱的。学生们正确识别出92%的未被打乱的对象,被打乱的对象识别准确率为23%。当学生可以根据需要看到轮廓时,他们正确地识别出97%的未被打乱对象和37%打乱的对象。
心理学家得出的结论是,人类看到整个物体,而人工智能网络识别物体的碎片。
Kellman表示,“这项研究表明,这些系统在不考虑形状的情况下,就能从训练过的图像中得到正确的答案。对人类来说,整体形状是物体识别的首要条件,但这些深度学习系统似乎与人类背道而驰。”
论文:
journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006613