研究人员利用重音训练AI,以提高模型对口音的识别
2018年07月12日 由 浅浅 发表
911679
0
没有什么东西比不懂你口音的语音识别系统更令人沮丧。发音的语言差异使数据科学家多年来一直困扰,训练模型需要大量数据,而某些方言不像其他方言那么常见。
思科,莫斯科物理科学与技术学院和高等经济学院的研究人员在Arxiv.org上发表的一篇新论文(“Foreign English Accent Adjustment by Learning Phonetic Patterns”)中提出了一个可能的解决方案。他们的系统利用了词汇和语调的辩证差异来创建新的重音词样,与类似的系统相比,它学会了一些准确的识别。
研究人员写道:“更多非本地口音的语音数据对于提高现有语音识别模型的性能是必要的。然而,这仍然是一个悬而未决的问题。”
该团队从卡内基梅隆大学(CMU)发音词典中获取数据,该词典包含数千个英语使用者录制常用词的录音。传统上,当训练系统采用新口音时,语音学家必须手动提取称为语音概括的特征,以表示通用美国英语(GAE)缺乏明显区域或种族特征的英语口语,与不同口音的音频样本之间的差异。但是那种硬编码往往不能很好地扩展。
研究人员的模型自动推广了这些规则。使用字典映射来自乔治梅森大学的语音口音档案, 来自各种语言背景的语音样本集合,到CMU的独特声音,它通过对输入单词进行替换,删除和插入来预测发音。
团队使用该模型生成一个语音数据集,它们被送入一个递归神经网络,试图摆脱不必要的声音并改变它们,以便它们不会偏离太远来自GAE单词版本。在用800000个样本进行训练后,它能够识别重音词,准确率为59%。
这是初步的研究,因为CMU词典包含的声音比GMU少,因此该模型只能学习CMU的20个语音概括中的13个。但该团队设法将CMU数据集的大小从单个重音的103000个语音转录增加到具有多个重音的100万个样本。
研究人员写道,“提出的模型能够学习以前由语音学家手工获得的所有概括。”
论文:arxiv.org/pdf/1807.03625.pdf