英文

NVIDIA Conformer-Transducer Large (de)

| | |

这个模型以德语小写字母和空格进行语音转录。这是一个“大”型Conformer-Transducer模型,拥有约120M个参数。有关完整的架构细节,请参见模型架构部分和 NeMo documentation

NVIDIA NeMo: 训练

要训练、微调或使用该模型,您需要安装 NVIDIA NeMo 。我们建议在安装最新的Pytorch版本后再安装它。

pip install nemo_toolkit['all']

如何使用此模型

该模型可在NeMo工具包[3]中使用,并可用作预训练检查点进行推理或在其他数据集上微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_de_conformer_transducer_large")

使用Python进行语音转录

首先,获取一个样本

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后简单执行以下操作:

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_de_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16000 KHz单声道音频(wav文件)作为输入。

输出

该模型为给定音频样本提供转录的语音字符串。

模型架构

Conformer-Transducer模型是Conformer模型[1]的自回归变体,用于自动语音识别,它使用Transducer损失/解码代替了CTC损失。关于该模型的详细信息,请参阅 Conformer-Transducer Model

训练

使用NeMo工具包[3]对模型进行了数百个epoch的训练。这些模型使用了此 example script 和此 base config 进行训练。

这些模型的分词器使用训练集的文本转录数据使用此 script 构建。

数据集

此集合中的所有模型都是在一个综合数据集(NeMo ASRSET)上进行训练的,该数据集包含了数千小时的德语语音:

  • VoxPopuli(DE)200小时子集
  • Multilingual Librispeech(MLS DE)- 1500小时子集
  • Mozilla Common Voice(v7.0)

注意:旧版本的模型可能在更小的数据集上进行了训练。

性能

该集合中可用模型的列表显示在下表中。ASR模型的性能以词错误率(WER%)与贪婪解码进行报告。

Version Tokenizer Vocabulary Size MCV7.0 dev MCV7.0 test MLS dev MLS test Voxpopuli dev Voxpopuli test
1.6.0 SentencePiece Unigram 1024 4.40 4.93 3.22 3.85 11.04 8.85

限制

由于该模型是在公开可用的语音数据集上进行训练的,所以该模型对于包含技术术语或模型未经过训练的方言的语音可能性能会下降。该模型在口音语音上的表现也可能较差。

NVIDIA Riva:部署

NVIDIA Riva 是一种可部署于本地、所有云端、多云、混合云、边缘和嵌入式系统的加速语音AI SDK。此外,Riva 还提供:

  • 具有针对最常见语言的在箱准确度,模型检查点使用专有数据进行训练,数十万个GPU计算小时。
  • 最佳的准确度,支持运行时词提升(例如品牌和产品名称),以及对声学模型、语言模型和逆文本规范化的自定义。
  • 流式语音识别、与Kubernetes兼容的扩展和企业级支持。

尽管该模型目前尚未得到Riva的支持,但 list of supported models is here 中提供了Riva的支持。查看 Riva live demo 了解更多详情。

参考资料

[1] Conformer: Convolution-augmented Transformer for Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit

许可证

使用该模型的许可证受到 CC-BY-4.0 的保护。下载该模型的公共和发布版本即表示您接受 CC-BY-4.0 许可证的条款和条件。

.hf-sanitized.hf-sanitized-p1kphI90xkq_EUCVyI9AU img {display: inline;}