仅需1秒,AI即可识别出声音中的愤怒情绪
2019年02月11日 由 浅浅 发表
570210
0
亚马逊的Alexa可以检测到低声说话,而麻省理工学院媒体实验室分拆公司Affectiva的神经网络SoundNet,可以在短短1.2秒内识别出音频数据中的愤怒情绪,无论音频语言是什么。
Affectiva的研究人员在新论文“Transfer Learning From Sound Representations For Anger Detection in Speech”中描述了该系统,它建立在公司通过语音和面部数据打造情感档案的努力的基础上——今年,该公司与Nuance合作开发了一种车内AI系统,可以从摄像头的反馈中检测驾驶员疲劳的迹象。2017年12月,它推出了Speech API,它使用语音识别笑声,愤怒和其他情绪,以及语音音量,音调,速度和暂停。
论文作者表示,“利用深度学习网络进行情感识别的一个重要问题是,深度网络所需的大量数据与情感标记的语音数据集的小尺寸之间不匹配。而训练有素的愤怒检测模型提高了性能,并在各种行为,引出和自然的情感语音数据集上得到了很好的推广。此外,我们的系统延迟低,适合实时应用。”
SoundNet由卷积神经网络组成,用视频数据集进行训练。为了让它能够识别出语音中的愤怒,该团队首先收集了大量的普通音频数据,包括200万段视频,然后,他们使用一个更小的数据集IEMOCAP对其进行微调,该数据集包含12个小时的带注释的视听情感数据,包括视频、语音和文本转录。
为了测试AI模型的通用性,该团队使用英文对用普通话语音情感数据训练的模型(普通话情感语料库,简称MASC)进行了评估。结果它不仅可以很好地推广到英语语音数据,而且对汉语数据也很有效,尽管性能略有下降。
研究人员表示,他们的成功证明了通过迁移学习,有效且延迟低的语音情感识别模型可以得到显著改善。
团队表示,“结果表明该技术的潜力很大,因为虽然情感语音数据集很小并且很难获得,但是可以使用大量的自然声音事件数据集,例如用于训练SoundNet或谷歌的AudioSet的数据集。这两个数据集本身就有大约1.5万小时的标记音频数据。识别愤怒应用广泛,包括会话界面和社交机器人,交互式语音应答(IVR)系统,市场研究,客户代理评估和培训,以及虚拟现实和增强现实。”
未来的工作将开发其他大型公共语料库,并为相关的基于语音的任务训练AI系统,例如识别其他类型的情绪和情感状态。
论文:arxiv.org/pdf/1902.02120.pdf