英文

Wav2Vec2-XLS-R-1B

Facebook's Wav2Vec2 XLS-R 计数 10亿 参数。

XLS-R 是 Facebook AI 的大规模多语言预训练语音模型("XLM-R for Speech")。它在436k小时的无标签语音上进行了预训练,包括 VoxPopuli、MLS、CommonVoice、BABEL 和 VoxLingua107。该模型使用 wav2vec 2.0 目标,支持128种语言。在使用该模型时,请确保语音输入采样率为16kHz。

注意:该模型应在下游任务(例如自动语音识别、翻译或分类)上进行微调。有关ASR的更多信息,请参阅 this blog

XLS-R Paper

摘要 本文介绍了基于wav2vec 2.0的跨语言语音表示学习大规模模型XLS-R。我们在128种语言中使用高达20亿参数的模型,在436k小时的公开语音音频上进行训练,相比已知的最大规模的研究工作,这是公开数据量级的十倍。我们的评估覆盖了各种任务、领域、数据规模和语言,包括高资源语言和低资源语言。在CoVoST-2语音翻译基准测试中,我们相对于英语的21个翻译方向平均提升了7.4个BLEU。对于语音识别,XLS-R相对于BABEL、MLS、CommonVoice以及VoxPopuli等已知研究工作平均降低了20%-33%的错误率。XLS-R在VoxLingua107语言识别方面也刷新了最新的最优结果。此外,我们还表明在足够大的模型规模下,跨语言预训练可以在将英语转换为其他语言的情况下优于仅英语预训练,这种情况有利于单语预训练。我们希望XLS-R能够帮助改进更多世界语言的语音处理任务。

原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

用法

有关如何对模型进行微调的更多信息,请参阅 this google colab

您可以找到具有不同参数数量的其他预训练XLS-R模型: