英文

Wav2Vec2-Large-LV60

Facebook's Wav2Vec2

基于16kHz采样的语音音频进行预训练的基础模型。在使用该模型时,请确保输入的语音也是以16kHz进行采样的。

注意:该模型没有分词器,因为它是仅基于音频进行预训练的。要使用该模型进行语音识别,需要创建一个分词器,并在标注的文本数据上对模型进行微调。查看 this blog ,以获取有关如何对模型进行微调的更详细说明。

Paper

作者:Alexei Baevski,Henry Zhou,Abdelrahman Mohamed,Michael Auli

摘要:我们首次展示了仅从语音音频中学习强大的表示,然后在转录的语音上进行微调,可以胜过最好的半监督方法,同时在概念上更简单。wav2vec 2.0 在潜在空间中对语音输入进行屏蔽,并解决在联合学习的潜在表示量化上定义的对比任务。在使用Librispeech的所有标记数据上的实验中,干净/其他测试集的字错误率(WER)为1.8/3.3。当将标记数据量降低到一个小时时,wav2vec 2.0 在使用100倍更少的标记数据的情况下,胜过了之前在100小时子集上的最新技术水平。仅使用十分钟的标记数据,并在53k小时的未标记数据上进行预训练,仍然实现了4.8/8.2 WER。这证明了在有限数量的标记数据情况下进行语音识别的可行性。原始模型可在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 找到。

使用方式

更多关于如何对模型进行微调的信息,请参见 this notebook