研究人员通过对人类听觉处理进行建模,以改进机器人的语音识别
2019年02月18日 由 浅浅 发表
282803
0
我们很少考虑到噪音,但是在拥挤的城市广场和繁忙的百货商店等地方隔离声音,是一件非常复杂的事情。在我们听觉通路的较低层次,我们从背景中分离出单独的来源,在空间中定位它们,并在我们弄清楚它们的上下文之前检测它们的运动模式。
受到这种神经生理学的启发,研究人员发表论文“Enhanced Robot Speech Recognition Using Biomimetic Binaural Sound Source Localization”,该设计旨在测试面部特征对声音识别组件的影响,如声源定位(SSL)和自动语音识别(ASR)。
正如研究人员指出的那样,躯干,头部和耳廓吸收并反射声波,根据声源的位置改变频率。它们前往耳蜗和内部的Corti器官,产生神经冲动以响应声音振动。这些冲动通过听觉神经系统传递到耳蜗核,这是一种将信息转发到两个结构的中继站:内侧上橄榄(MSO)和侧上橄榄(LSO)。(MSO被认为有助于定位左侧或右侧的角度以精确定位声音源,而LSO使用强度来定位声源。)最后,它们被整合到大脑的下丘(IC)中。
为了在算法上复制结构,研究人员设计了一个机器学习框架,可以处理嵌入在类人机器人头部、iCub和Soundman中的麦克风录制的声音。
该框架包括四个部分:一个SSL组件,将音频分解为多组频率,并使用频率波来产生模仿Corti神经冲动的峰值;对某些角度产生的声音敏感的MSO模型;对其他角度敏感的LSO模型;以及一个IC组合的层,它结合了MSO和LSO的信号。额外的神经网络可以最大限度地减少混响和自我噪声(机器人关节和电机产生的噪声)。
为了测试系统的性能,研究人员使用Soundman建立SSL和ASR基线以及iCub头(配备允许其旋转的马达),以确定头部和内部组件的共振效应。一组13个均匀分布的扬声器采用半圆柱配置,朝向磁头喷射噪声,探测并处理它。
该团队发现,来自SSL的数据可以显著改善,在某些情况下,在句子级别上提高了两倍,语音识别的准确性,通过指示如何定位机器人头部并选择适当的通道作为ASR系统的输入。当从头部移除耳廓时,性能甚至更好。
该论文的作者写道,“这种方法与相关方法形成对比,在这些方法中,来自两个通道的信号在用于ASR之前被平均,动态SSL实验的结果表明该架构能够处理不同类型的混响。这些结果是我们之前在静态SSL中工作的重要扩展,并支持系统对真实环境中声音动态的稳健性。此外,系统可以轻松地与最新的方法集成,以增强混响环境中的ASR [55][57],而不会增加计算成本。”
论文:
arxiv.org/ftp/arxiv/papers/1902/1902.05446.pdf