| | |
该模型用于将普通话语音转录成汉字。这是Conformer-Transducer(约120M参数)的大型版本模型。详细的模型架构信息请参考模型架构部分和 NeMo documentation 。
若要进行训练、微调或使用该模型,您需要安装 NVIDIA NeMo 。我们建议在安装最新版本的Pytorch后再安装它。
pip install nemo_toolkit['all']
该模型可在NeMo工具包[3]中使用,并可用作推理的预训练检查点,或用于在另一个数据集上进行微调。
import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_zh_conformer_transducer_large")
您可以像这样转录音频文件:
asr_model.transcribe([PATH_TO_THE_AUDIO])
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py pretrained_name="nvidia/stt_zh_conformer_transducer_large" audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
该模型接受16000 kHz单声道音频(wav文件)作为输入。
该模型为给定音频样本提供转录的语音字符串。
Conformer-Transducer模型是Conformer模型[1]的自回归变体,用于自动语音识别,它使用Transducer损失/解码,而不是CTC损失。您可以在此处找到有关该模型详细信息: Conformer-Transducer Model 。
NeMo工具包[3]用于对模型进行数百个epoch的训练。这些模型使用此 example script 和此 base config 进行训练。
本系列中的所有模型均是在包含普通话语音的AISHELL2 [4]上进行训练的。
该系列中可用模型的列表如下表所示。ASR模型的性能以词错误率(WER%)与贪婪解码进行报告。
Version | Tokenizer | Vocabulary Size | AISHELL2 Test IOS | AISHELL2 Test Android | AISHELL2 Test Mic | Train Dataset |
---|---|---|---|---|---|---|
1.10.0 | Characters | 5026 | 5.3 | 5.7 | 5.6 | AISHELL-2 |
由于该模型是在公开可用的语音数据集上进行训练的,因此对于包含技术术语或模型未经过训练的方言的语音,该模型的性能可能会下降。该模型对口音语音的表现也可能较差。
NVIDIA Riva ,是一种能够在本地部署、所有云端、多云、混合云、边缘和嵌入式设备上加速的语音AI SDK。此外,Riva还提供:
尽管此模型尚未受到Riva的支持,但您可以查看 list of supported models is here 。
[1] Conformer: Convolution-augmented Transformer for Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit [4] AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale
此模型的许可使用受到 CC-BY-4.0 的约束。通过下载模型的公共和发布版本,您接受 CC-BY-4.0 许可的条款和条件。
.hf-sanitized.hk-sanitized-tC2FZBZtsFaMo_z7gl-0H img {display: inline;}