模型:
facebook/hubert-xlarge-ll60k
该模型在16kHz采样的语音音频上进行了预训练。在使用该模型时,请确保您的语音输入也是以16kHz采样的。请注意,该模型应该在下游任务(如自动语音识别、说话人识别、意图分类、情感识别等)上进行微调。
该模型的预训练数据是 Libri-Light 。
作者:Wei-Ning Hsu,Benjamin Bolte,Yao-Hung Hubert Tsai,Kushal Lakhotia,Ruslan Salakhutdinov,Abdelrahman Mohamed
摘要 语音表示学习的自监督方法面临着三个独特的问题:(1)每个输入语音中有多个声音单元,(2)在预训练阶段没有输入声音单元的词汇表,(3)声音单元的长度存在变化,没有明确的分割。为了解决这三个问题,我们提出了Hidden-Unit BERT(HuBERT)方法,用于自监督语音表示学习,它利用离线聚类步骤为BERT-like预测损失提供了对齐的目标标签。我们方法的一个关键部分是仅在掩码区域上应用预测损失,这迫使模型在连续输入上学习组合的声学和语言模型。HuBERT主要依靠无监督聚类步骤的一致性,而不是分配的簇标签的本质质量。使用一个由100个簇组成的简单的k-means聚类器开始,并使用两次聚类迭代,HuBERT模型在Librispeech(960h)和Libri-light(60,000h)基准测试中,根据10min、1h、10h、100h和960h微调子集,要么与wav2vec 2.0的最新性能相匹配,要么有所提升。使用一个10亿参数的模型,HuBERT在更具挑战性的dev-other和test-other评估子集上相对于误识别率(WER)可减少高达19%和13%。
原始模型可以在 https://github.com/pytorch/fairseq/tree/master/examples/hubert 下找到。
更多有关如何对模型进行微调的信息,请参见 this blog 。请注意,类 Wav2Vec2ForCTC 必须替换为 HubertForCTC 。