模型:

facebook/wav2vec2-large-uralic-voxpopuli-v2

英文

Wav2Vec2-large-VoxPopuli-V2

Facebook's Wav2Vec2 仅使用42.5个未标记数据的uralic进行了大型模型的预训练。

该模型在16kHz采样的语音音频上进行了预训练。在使用该模型时,请确保您的语音输入也是以16KHz进行采样的。

注意:该模型没有分词器,因为它仅在音频上进行了预训练。为了将该模型用于语音识别,需要创建一个分词器,并在uralic上对标记的文本数据进行微调。详细了解如何微调模型,请查看 this blog

论文: VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation

作者:Changhan Wang,Morgane Riviere,Ann Lee,Anne Wu,Chaitanya Talnikar,Daniel Haziza,Mary Williamson,Juan Pino,Emmanuel Dupoux来自Facebook AI。

有关更多信息,请访问官方网站 here