Alexa研究人员通过减少数据不平衡,可将AI系统错误率降低30%
2019年03月13日 由 冯鸥 发表
255228
0
不平衡的训练数据是分类器的主要障碍,当一类样本不成比例地对语料库做出贡献时,分类器自然会比其他类型更频繁地遇到它,因此有可能对它产生偏见。
亚马逊Alexa部门的研究人员表示,他们已经开发出一种技术,可以将一些数据不平衡的系统的错误率降低多达30%。
他们在最近发表的一篇论文“Deep Embeddings for Rare Audio Event Detection with Imbalanced Data”中描述了它,计划于今年春天在布莱顿举行的Acoustics, Speech, and Signal Processing国际会议上发表。
通常情况下,数据科学家通过在代表性不足的类中增加数据权重来解决非代表性样本问题,例如,如果一个特定的类的训练数据是另一个类的三分之一,那么它的每个示例的计算量将是另一个类的三倍。
但是,Alexa Speech组的科学家Ming Sun,也是该论文的第一作者,提倡不同的方法。团队训练了一个AI系统,以向量形式为每个类别生成嵌入,并最大化这些向量之间的距离。
为了防止嵌入不平衡,大于任何其他数据类的数据类被分成与最小类的大小相似的聚类。为了缩短测量数据项之间距离所需的时间,系统设计用于保持质心的连续测量。
“通过每次新的嵌入,我们的算法测量它与聚类的质心的距离,比完全测量成对距离更有效的计算,”Sun在博客文章中解释道。
完全训练的嵌入AI的输出被用作将标签应用于输入数据的分类器的训练数据。然后对来自行业标准数据集的四种声音进行测试:狗吠声,婴儿哭声,枪声和背景声音。
使用长短时记忆(LSTM)网络进行的嵌入式实验显示,性能提高了15%到30%,总体性能提高了22%。在一个更大、更慢但更精确的卷积神经网络上,误差减少了6%到19%,这取决于数据类的比例。
论文:
s3.us-east-2.amazonaws.com/alexapapers/DeepEmbedding_imbalance.pdf