模型:
nvidia/stt_de_conformer_transducer_large
| | |
这个模型以德语小写字母和空格进行语音转录。这是一个“大”型Conformer-Transducer模型,拥有约120M个参数。有关完整的架构细节,请参见模型架构部分和 NeMo documentation 。
要训练、微调或使用该模型,您需要安装 NVIDIA NeMo 。我们建议在安装最新的Pytorch版本后再安装它。
pip install nemo_toolkit['all']
该模型可在NeMo工具包[3]中使用,并可用作预训练检查点进行推理或在其他数据集上微调。
import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_de_conformer_transducer_large")
首先,获取一个样本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后简单执行以下操作:
asr_model.transcribe(['2086-149220-0033.wav'])
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py pretrained_name="nvidia/stt_de_conformer_transducer_large" audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
该模型接受16000 KHz单声道音频(wav文件)作为输入。
该模型为给定音频样本提供转录的语音字符串。
Conformer-Transducer模型是Conformer模型[1]的自回归变体,用于自动语音识别,它使用Transducer损失/解码代替了CTC损失。关于该模型的详细信息,请参阅 Conformer-Transducer Model 。
使用NeMo工具包[3]对模型进行了数百个epoch的训练。这些模型使用了此 example script 和此 base config 进行训练。
这些模型的分词器使用训练集的文本转录数据使用此 script 构建。
此集合中的所有模型都是在一个综合数据集(NeMo ASRSET)上进行训练的,该数据集包含了数千小时的德语语音:
注意:旧版本的模型可能在更小的数据集上进行了训练。
该集合中可用模型的列表显示在下表中。ASR模型的性能以词错误率(WER%)与贪婪解码进行报告。
Version | Tokenizer | Vocabulary Size | MCV7.0 dev | MCV7.0 test | MLS dev | MLS test | Voxpopuli dev | Voxpopuli test |
---|---|---|---|---|---|---|---|---|
1.6.0 | SentencePiece Unigram | 1024 | 4.40 | 4.93 | 3.22 | 3.85 | 11.04 | 8.85 |
由于该模型是在公开可用的语音数据集上进行训练的,所以该模型对于包含技术术语或模型未经过训练的方言的语音可能性能会下降。该模型在口音语音上的表现也可能较差。
NVIDIA Riva 是一种可部署于本地、所有云端、多云、混合云、边缘和嵌入式系统的加速语音AI SDK。此外,Riva 还提供:
尽管该模型目前尚未得到Riva的支持,但 list of supported models is here 中提供了Riva的支持。查看 Riva live demo 了解更多详情。
[1] Conformer: Convolution-augmented Transformer for Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit
使用该模型的许可证受到 CC-BY-4.0 的保护。下载该模型的公共和发布版本即表示您接受 CC-BY-4.0 许可证的条款和条件。
.hf-sanitized.hf-sanitized-p1kphI90xkq_EUCVyI9AU img {display: inline;}