模型:
microsoft/unispeech-large-1500h-cv
语言:
en预印本库:
arxiv:2101.07597预训练于16kHz采样的语音音频和音素标签的大型模型。使用该模型时,请确保语音输入也以16kHz进行采样,并将文本转换为音素序列。
注意:该模型没有分词器,因为它仅在音频上进行了预训练。为了使用该模型进行语音识别,应创建一个分词器,并在标注的文本数据上对模型进行微调。详细的微调方法请查看 this blog 。
Paper: UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data
作者:Chengyi Wang,Yu Wu,Yao Qian,Kenichi Kumatani,Shujie Liu,Furu Wei,Michael Zeng,Xuedong Huang
摘要:在本文中,我们提出了一种统一的预训练方法UniSpeech,用于使用无标签和标记数据学习语音表示。通过多任务学习方式进行监督的音素CTC学习和音素感知对比自监督学习。由此产生的表示可以捕捉与音素结构更相关的信息,并提高跨语言和领域的泛化能力。我们在公共的CommonVoice语料库上评估了UniSpeech在跨语言表示学习方面的有效性。结果表明,相对于自监督预训练和监督迁移学习,UniSpeech在语音识别方面的相对错误率降低最大可达13.4%和17.8%(平均所有测试语言)。UniSpeech的可迁移性也在领域转移语音识别任务上得到了验证,相对于之前的方法,字错误率降低了6%。
原始模型可在 https://github.com/microsoft/UniSpeech/tree/main/UniSpeech 处找到。
这是一个英语的预训练语音模型,在使用推理前必须对下游任务(如语音识别或音频分类)进行微调。该模型在英语上进行了预训练,因此只能在英语上表现良好。
注意:该模型是在音素而不是字符上进行预训练的。这意味着在进行微调之前,应确保输入文本转换为音素序列。
有关将该模型微调为语音识别的信息,请参阅 the official speech recognition example 。
有关将该模型微调为语音分类的信息,请参阅 the official audio classification example 。
该模型由 cywang 和 patrickvonplaten 共同贡献。
正式许可证可在 here 处找到