英文

NVIDIA Conformer-Transducer Large (fr)

| | |

该模型是在包含1500多个小时的法语语音的综合数据集上训练的。它是Conformer-Transducer的大型版本(约120M个参数)。有关完整的体系结构细节,请参阅模型体系结构部分和 NeMo documentation

NVIDIA NeMo:训练

要训练、微调或使用该模型,您需要安装 NVIDIA NeMo 。我们建议您在安装最新的Pytorch版本后再安装它。

pip install nemo_toolkit['all']

如何使用该模型

该模型可在NeMo工具包[3]中使用,并可用作预训练检查点以进行推理或在其他数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_fr_conformer_transducer_large")

使用Python进行转录

首先,让我们获取一个示例

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后只需执行:

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_fr_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16000 kHz单声道音频(wav文件)作为输入。

输出

该模型将给定音频样本的转录语音作为字符串提供。

模型体系结构

Conformer-Transducer模型是Conformer模型[1]的自回归变体,用于自动语音识别,它使用Transducer损失/解码而不是CTC Loss。您可以在此处找到有关该模型详细信息的更多信息: Conformer-Transducer Model

训练

NeMo工具包[3]用于对模型进行数百次训练。这些模型使用此 example script 和此 base config 进行训练。

这些模型的字级分词器[2]是使用训练集的文本转录本和此 script 构建的。

数据集

该集合中的所有模型都是在NeMo ASRSET组成的综合数据集上进行的训练,该数据集包含1000多个小时的法语语音:

  • MozillaCommonVoice 7.0-356小时
  • 多语种LibriSpeech-1036小时
  • VoxPopuli-182小时

这两个模型使用相同的数据集,但在次要模型的训练中排除了一个从数据中删除连字符的预处理步骤。

性能

自动语音识别模型的性能是使用词错误率来衡量的。由于该数据集在多个领域和更大的语料库上进行了训练,因此通常在转录音频方面表现更好。

最新模型在以下评估数据集上获得以下贪婪分数

  • MCV7.0开发版6.85%
  • MCV7.0测试版7.95%
  • MLS开发版5.05%
  • MLS测试版4.10%

请注意,这些评估数据集已经经过过滤和预处理,只包含法语字母字符,并删除了连字符和撇号之外的标点符号。

限制

由于该模型是在公开可用的语音数据集上进行训练的,因此该模型的性能可能会因包含技术术语或模型未经训练的本地语言而下降。该模型在重音言语方面的表现也可能较差。

此外,由于训练集的部分文本包含了1990年前和1990年后的拼写改革,因此标点符号的规律性可能在这两种风格之间有所不同。对于需要更一致性的下游任务,可能需要微调或下游处理。如果不需要精确的正字法,则建议使用次要模型。

参考资料

.hf-sanitized.hf-sanitized-Y3uFh6pPivQYcc9VXK-iQ img {display: inline;}