模型:
facebook/wav2vec2-large-robust
数据集:
libri_light common_voice switchboard fisher 3Afisher 3Aswitchboard 3Acommon_voice 3Alibri_light语言:
en预印本库:
arxiv:2104.01027许可:
apache-2.0该大型模型是在16kHz采样的语音音频上进行预训练的。使用了来自多个领域的语音数据集对模型进行预训练:
在使用模型时,请确保语音输入也以16kHz采样。
注意:此模型没有分词器,因为它仅在音频上进行了预训练。为了使用该模型进行语音识别,需要创建一个分词器,并在带标签的文本数据上对模型进行微调。更详细的解释请参阅 this blog 。
作者:Wei-Ning Hsu、Anuroop Sriram、Alexei Baevski、Tatiana Likhomanenko、Qiantong Xu、Vineel Pratap、Jacob Kahn、Ann Lee、Ronan Collobert、Gabriel Synnaeve、Michael Auli
摘要:自监督学习的语音表示一直是一个非常活跃的研究领域,但大多数工作都集中在一个特定领域,例如朗读的有声书籍,因为在这个领域存在大量标注和未标注的数据。在本文中,我们探讨了更一般的设置,即预训练数据的无标签数据领域与微调的标签数据领域不同,并且这两个领域可能与测试数据的领域也不同。我们的实验表明,在预训练过程中使用目标领域数据可以显著提高各种设置的性能。在一个大规模竞争性设置中,我们展示了在预训练无标签的领域数据上,使得在领域内和领域外的标签数据训练的模型之间的差距减小了66%-73%。这对于实际应用具有明显的实际意义,因为获取无标签的目标领域数据比获取带标签的数据要容易得多。此外,我们发现在多个领域进行预训练可以提高对训练中未见的领域的泛化性能。代码和模型将在此 https URL 上提供。原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。
有关如何微调该模型的更多信息,请参见 this notebook 。