模型:
facebook/wav2vec2-xls-r-2b
Facebook's Wav2Vec2 XLS-R counting 2 billion parameters.
XLS-R 是 Facebook AI 的大规模多语言预训练语音模型("XLM-R for Speech")。它在包括 VoxPopuli、MLS、CommonVoice、BABEL 和 VoxLingua107 在内的 436k 小时未标记的语音上进行了预训练,涵盖了 128 种语言。使用该模型时,请确保语音输入采样率为 16kHz。
Note: 此模型应在下游任务(如自动语音识别、翻译或分类)上进行微调。查阅 this blog 了解更多有关自动语音识别的信息。
作者:Arun Babu、Changhan Wang、Andros Tjandra、Kushal Lakhotia、Qiantong Xu、Naman Goyal、Kritika Singh、Patrick von Platen、Yatharth Saraf、Juan Pino、Alexei Baevski、Alexis Conneau、Michael Auli
摘要:本文介绍了基于 wav2vec 2.0 的跨语言语音表示学习的大规模模型 XLS-R。我们在包括 128 种语言的 436K 小时公开可用的语音音频上训练带有多达 2B 参数的模型,比已知的最大工作范例提供了一个数量级更多的公开数据。我们的评估涵盖了各种任务、领域、数据情景和语言,既有高资源语言也有低资源语言。在 CoVoST-2 语音翻译基准测试中,相对于英语,我们平均提高了 7.4 个 BLEU 分,在 21 个翻译方向上。对于语音识别,XLS-R 相对于 BABEL、MLS、CommonVoice 和 VoxPopuli 的之前最佳工作,平均降低了 20%-33% 的错误率。XLS-R 还在 VoxLingua107 语言标识上建立了新的最佳工作状态。此外,我们展示了在具有足够模型大小的情况下,跨语言预训练在将英语语音翻译成其他语言时可以胜过仅英语预训练,这种情况有利于单语预训练。我们希望 XLS-R 能够帮助改进更多世界语言的语音处理任务。
原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。
查阅 this google colab 获取有关如何对模型进行微调的更多信息。
您可以找到其他具有不同参数数量的预训练 XLS-R 模型: