声音病理是指由异常条件引起的问题,比如失音、瘫痪、囊肿,甚至是癌症,造成声带(或声襞)产生异常振动。在这一背景下,声音病理检测(VPD)作为一种非侵入性的自动检测声音问题的方法引起了广泛关注。它由两个处理模块组成:一个用于表征正常声音的特征提取模块和一个用于检测异常声音的声音检测模块。
支持向量机(SVM)和卷积神经网络(CNN)等机器学习方法已成功应用于以病理声音检测模块为目标的声音病理检测,并取得了良好的VPD性能。此外,预训练的自监督模型可以学习通用和丰富的语音特征表示,而不是显式的语音特征,从而进一步提高了其VPD能力。
然而,将这些模型进行微调以用于VPD会导致过度拟合的问题,因为从会话语音到VPD任务存在领域偏移。结果导致预训练模型过度关注训练数据,在新数据上表现欠佳,无法泛化。
为了缓解这个问题,韩国光州科学技术学院(GIST)的一组研究人员,在Hong Kook Kim教授的带领下,提出了一种涉及Wave2Vec 2.0的对比学习方法,该方法是一种用于语音信号的自监督预训练模型,并采用了一种名为对抗性任务自适应预训练(A-TAPT)的新方法。在持续学习过程中,他们结合了对抗性正则化。
研究人员利用Saarbrucken Voice Database进行了各种VPD实验,发现所提出的A-TAPT相比于SVM和CNN ResNet50,在不加权平均召回率(UAR)上分别提高了12.36%和15.38%。它还比传统的TAPT学习高出2.77%的UAR。这表明A-TAPT在缓解过度拟合问题方面更为有效。
关于这项工作的长期影响,本文的第一作者Park先生表示:“在未来的五到十年内,我们与麻省理工学院合作开展的VPD研究可能会从根本上改变医疗保健、技术和各个行业。通过实现对声音相关疾病的早期和准确诊断,它可能会带来更有效的治疗,提升无数个体的生活质量。”