深度神经网络与人类感知的区别
2019年12月16日 由 TGS 发表
26930
0
当你妈妈叫你的名字时,不管音量大小,你都能听出那是她的声音。当你看到她的脸时,即便她离你很远,光线不好,你也知道那就是她的脸。这种对变异的鲁棒性是人类感知的一个标志。
另一方面,我们很容易产生错觉:我们可能无法区分某些声音或图像——即便他们实际上并不相同。科学家们将其解释为幻想,我们对自己听觉视觉系统的不变性,缺乏全面的了解。
深度神经网络可以执行语音识别和图像分类任务,对听觉或视觉刺激的变化具有非常好的鲁棒性,与人类感知系统很像,但麻省理工学院的一组研究人员却发现,它们实际上是不同的。近日,他们在2019年神经信息处理系统会议上提出了他们的这个发现。
在目前的研究中,研究人员从标准的数据库中随机选择自然图像和语音片段,然后合成声音和图像,这样深度神经网络就可以将它们与自然图像分类。也就是说,它们产生的物理上截然不同的刺激被模型分类,而不是被人类分类。这是一种思考元模型的新方法,概括了将计算机模型的角色转换为人类感知器的概念。因此,他们把这些合成的刺激称为成对的自然刺激的“模型元模型”。
然后,研究人员测试了人类是否能识别文字和图像。在实验的过程中,参与者会听到一段简短的演讲,然后从一组单词中找出视频中出现的单词。如果是自然音频,这个任务是很容易的,但如果是许多模型化音频,那就很难。原因很简单,人类不会把合成的刺激物和“鸟”这个词或鸟的形象放在同一类。事实上,为匹配模型最深层的响应而生成的模型元分子,通常无法被人类主体识别为单词或图像。
基本的逻辑是,如果我们有一个很好的人类感知模型,比如说语音识别,那么如果我们选择两个模型说相同的声音,并将这两个声音呈现给人类听众,他们会认为这两种声音是一样的。如果测试者反而感觉到刺激物是不同的,就清楚地表明我们模型中的表现与人类的感知不匹配。这项工作的重要性在于改进深层网络之外的感知模型。
此外,该团队还找到了修改模型网络的方法,以生成对人类来说更合理的声音和图像的元模型,他们表示:“这给了我们希望,我们可以最终发展模型,通过条件等色测试,更好的捕捉不变性。”