该模型在16kHz采样的语音音频上进行了预训练。在使用模型时,请确保您的语音输入也是以16kHz进行采样的。
注意:该模型没有分词器,因为它仅在音频上进行了预训练。要使用该模型进行语音识别,需要创建一个分词器,并对标注的文本数据对模型进行微调。请查看 this blog ,以了解如何对模型进行详细的微调说明。
模型的预训练内容包括:
Paper: WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
作者:Sanyuan Chen、Chengyi Wang、Zhengyang Chen、Yu Wu、Shujie Liu、Zhuo Chen、Jinyu Li、Naoyuki Kanda、Takuya Yoshioka、Xiong Xiao、Jian Wu、Long Zhou、Shuo Ren、Yanmin Qian、Yao Qian、Jian Wu、Michael Zeng、Furu Wei
摘要 自监督学习(SSL)在语音识别中取得了巨大成功,但对于其他语音处理任务的探索还很有限。由于语音信号包含发言人身份、语音语调、发言内容等多方面信息,为所有语音任务学习通用表示是具有挑战性的。在本文中,我们提出了一种新的预训练模型WavLM,用于解决全栈下游语音任务。WavLM基于HuBERT框架构建,着重于语音内容建模和发言人身份保持。我们首先使用门控相对位置偏差增强Transformer结构,提高其在识别任务上的能力。为了更好地进行说话人区分,我们提出了混合语句训练策略,在模型训练过程中无监督地创建额外的重叠语句,并将其纳入训练中。最后,我们将训练数据集从60k小时扩充到94k小时。WavLM Large在SUPERB基准上取得了最先进的性能,并显著改进了各种语音处理任务在其代表性基准上的表现。
原始模型可以在 https://github.com/microsoft/unilm/tree/master/wavlm 下找到。
这是一个英文的预训练语音模型,在可以用于推理之前,必须对其进行下游任务(如语音识别或音频分类)的微调。该模型在英语上进行了预训练,因此只能在英语上表现良好。该模型在 SUPERB benchmark 上表现良好。
注意:该模型是基于音素而不是字符进行预训练的。这意味着在微调之前,应确保将输入文本转换为音素序列。
要将模型微调为语音识别,请参阅 the official speech recognition example 。
要将模型微调为语音分类,请参阅 the official audio classification example 。
待办事项
待办事项
该模型由 cywang 和 patrickvonplaten 贡献。
正式许可证可在 here 处找到