模型:

asapp/sew-d-tiny-100k

英文

SEW-D-tiny

SEW-D by ASAPP Research

基于16kHz采样的语音音频预训练的基础模型。在使用该模型时,请确保语音输入也是以16kHz进行采样的。请注意,该模型应在下游任务(如自动语音识别、说话人识别、意图分类、情感识别等)上进行微调。

论文: Performance-Efficiency Trade-offs in Unsupervised Pre-training for Speech Recognition

作者:Felix Wu,Kwangyoun Kim,Jing Pan,Kyu Han,Kilian Q. Weinberger,Yoav Artzi

摘要:本文研究了预训练模型在自动语音识别(ASR)中性能和效率之间的权衡。我们专注于wav2vec 2.0,并规范化了几种影响模型性能和效率的架构设计。综合我们的所有观察结果,我们引入了SEW(Squeezed and Efficient Wav2vec),这是一种预训练模型架构,在各种训练设置下在性能和效率两个维度上都有显著改进。例如,在LibriSpeech的100小时至960小时半监督设置下,SEW与wav2vec 2.0相比实现了1.9倍的推理加速,并且相对于错误率而言,减少了13.5%。在类似的推理时间下,SEW在不同的模型大小上将错误率降低了25-50%。

原始模型可以在 https://github.com/asappresearch/sew#model-checkpoints 找到。

用法

有关如何对模型进行微调的更多信息,请参见 this blog 。请注意,类Wav2Vec2ForCTC必须替换为SEWDForCTC。