模型:
facebook/wav2vec2-large
基于16kHz采样的语音音频进行预训练的基础模型。在使用该模型时,请确保输入的语音也是以16kHz进行采样的。请注意,该模型应在下游任务(如自动语音识别)上进行微调。详细信息请参阅 this blog 。
作者:Alexei Baevski,Henry Zhou,Abdelrahman Mohamed,Michael Auli
摘要:我们首次展示,仅通过从语音音频中学习强大的表示,然后在转录的语音上进行微调,可以在概念上更简单的情况下超越最佳的半监督方法。wav2vec 2.0在潜在空间中遮蔽语音输入,并解决在联合学习的潜在表示的量化上定义的对比任务。在使用Librispeech的所有标记数据的实验中,干净/其他测试集的字错率(WER)为1.8/3.3。当标记数据量降低到一小时时,wav2vec 2.0在使用100倍少的标记数据的同时,优于之前在100小时子集上的最佳结果。仅使用十分钟的标记数据,并在53000小时的无标记数据上进行预训练,仍能实现4.8/8.2的WER。这证明了在有限的标记数据量下进行语音识别的可行性。原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/wav2vec#wav2vec-20 中找到。
有关如何对模型进行微调的更多信息,请参阅 this notebook 。