模型:

facebook/hubert-base-ls960

英文

Hubert-Base

Facebook's Hubert

该基础模型在16kHz采样的语音音频上进行了预训练。使用该模型时,请确保语音输入也是以16kHz采样的。

注意:该模型没有标记器,因为它仅在音频上进行了预训练。为了使用这个模型进行语音识别,需要创建一个标记器,并且在带标签的文本数据上对模型进行微调。有关如何微调该模型的更详细说明,请参阅 this blog

Paper

作者:Wei-Ning Hsu,Benjamin Bolte,Yao-Hung Hubert Tsai,Kushal Lakhotia,Ruslan Salakhutdinov,Abdelrahman Mohamed

摘要:自监督的语音表示学习方法面临着三个独特的问题:(1)每个输入句子中存在多个音频单元,(2)在预训练阶段没有输入音频单元的词典,(3)音频单元具有可变的长度且没有明确的分割。为了解决这三个问题,我们提出了Hidden-Unit BERT(HuBERT)方法,用于自监督的语音表示学习,该方法利用离线聚类步骤为BERT类似的预测损失提供了对齐的目标标签。我们方法的一个关键要素是仅在掩码区域上应用预测损失,这迫使模型在连续输入上学习组合声学模型和语言模型。HuBERT主要依赖于无监督聚类步骤的一致性,而不是分配的聚类标签的内在质量。使用100个聚类的简单k-means teacher和两个迭代的聚类,HuBERT模型与Librispeech(960h)和Libri-light(60,000h)基准测试的wav2vec 2.0的表现相当或优于其状态,分别使用10min,1h,10h,100h和960h进行微调。 HuBERT使用包含10亿参数的模型,相对于更具挑战性的dev-other和test-other评估子集,显示出高达19%和13%的相对WER降低。

原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/hubert 下找到。

用法

有关如何微调该模型的更多信息,请参阅 this blog 。请注意,类Wav2Vec2ForCTC必须替换为HubertForCTC。