模型:
microsoft/unispeech-sat-large
该大型模型在16kHz采样的语音音频上进行了预训练,使用了话语和说话人对比损失。在使用该模型时,请确保您的语音输入也以16kHz进行采样。
注意:该模型没有分词器,因为它仅在音频上进行了预训练。为了使用该模型进行语音识别,需要创建一个分词器,并对标记的文本数据对该模型进行微调。请查看 this blog ,了解有关如何微调该模型的更详细说明。
该模型的预训练内容包括:
Paper: UNISPEECH-SAT: UNIVERSAL SPEECH REPRESENTATION LEARNING WITH SPEAKER AWARE PRE-TRAINING
作者:Sanyuan Chen,Yu Wu,Chengyi Wang,Zhengyang Chen,Zhuo Chen,Shujie Liu,Jian Wu,Yao Qian,Furu Wei,Jinyu Li,Xiangzhan Yu
摘要 自我监督学习(SSL)一直是语音处理的长期目标,因为它利用大规模的未标记数据,并避免了大量的人工标注。近年来,在语音识别领域应用自我监督学习取得了巨大成功,但在建模说话人特征方面却没有进行过丰富的探索。本文旨在改进现有的SSL框架用于说话人表示学习。介绍了两种方法来增强无监督说话人信息提取。首先,我们将多任务学习应用于当前的SSL框架,其中将话语级对比损失与SSL目标函数相结合。其次,为了更好地区分说话人,我们提出了一种话语混合策略进行数据增强,其中无监督地创建额外的重叠话语,并在训练过程中合并。我们将这些方法整合到HuBERT框架中。在SUPERB基准测试中的实验结果表明,提出的系统在通用表示学习方面取得了最先进的性能,特别是针对说话人识别定向任务。通过消融实验验证了每种提出方法的有效性。最后,我们将训练数据集扩大到94,000小时的公共音频数据,并在所有SUPERB任务中取得进一步的性能提升。
原始模型可在 https://github.com/microsoft/UniSpeech/tree/main/UniSpeech-SAT 下找到。
这是一个英文预训练的语音模型,在可以用于推理之前,必须对其进行微调,以适应下游任务,如语音识别或音频分类。该模型在英语上进行了预训练,因此只能在英语上表现良好。该模型已经在说话人验证、说话人识别和说话人分割等任务上表现良好。
注意:该模型是基于音素而不是字符进行预训练的。这意味着在微调之前,应确保将输入文本转换为音素序列。
要将该模型微调为语音识别模型,请参阅 the official speech recognition example 。
要将该模型微调为语音分类模型,请参阅 the official audio classification example 。
待办事项
待办事项
该模型由 cywang 和 patrickvonplaten 贡献。
官方许可证可在 here 找到