英文

NVIDIA Conformer-Transducer Large (zh-ZH)

| | |

该模型用于将普通话语音转录成汉字。这是Conformer-Transducer(约120M参数)的大型版本模型。详细的模型架构信息请参考模型架构部分和 NeMo documentation

NVIDIA NeMo:训练

若要进行训练、微调或使用该模型,您需要安装 NVIDIA NeMo 。我们建议在安装最新版本的Pytorch后再安装它。

pip install nemo_toolkit['all']

如何使用该模型

该模型可在NeMo工具包[3]中使用,并可用作推理的预训练检查点,或用于在另一个数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_zh_conformer_transducer_large")

使用Python进行转录

您可以像这样转录音频文件:

asr_model.transcribe([PATH_TO_THE_AUDIO])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_zh_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16000 kHz单声道音频(wav文件)作为输入。

输出

该模型为给定音频样本提供转录的语音字符串。

模型架构

Conformer-Transducer模型是Conformer模型[1]的自回归变体,用于自动语音识别,它使用Transducer损失/解码,而不是CTC损失。您可以在此处找到有关该模型详细信息: Conformer-Transducer Model

训练

NeMo工具包[3]用于对模型进行数百个epoch的训练。这些模型使用此 example script 和此 base config 进行训练。

数据集

本系列中的所有模型均是在包含普通话语音的AISHELL2 [4]上进行训练的。

性能

该系列中可用模型的列表如下表所示。ASR模型的性能以词错误率(WER%)与贪婪解码进行报告。

Version Tokenizer Vocabulary Size AISHELL2 Test IOS AISHELL2 Test Android AISHELL2 Test Mic Train Dataset
1.10.0 Characters 5026 5.3 5.7 5.6 AISHELL-2

限制

由于该模型是在公开可用的语音数据集上进行训练的,因此对于包含技术术语或模型未经过训练的方言的语音,该模型的性能可能会下降。该模型对口音语音的表现也可能较差。

NVIDIA Riva:部署

NVIDIA Riva ,是一种能够在本地部署、所有云端、多云、混合云、边缘和嵌入式设备上加速的语音AI SDK。此外,Riva还提供:

  • 使用经过数十万GPU计算小时训练的专有数据的模型检查点,为最常见语言提供世界级的开箱即用准确性
  • 在运行时进行单词提升(例如,品牌和产品名称)和自定义声学模型、语言模型和逆向文本归一化,提供最佳准确性
  • 流式语音识别、与Kubernetes兼容的扩展以及企业级支持

尽管此模型尚未受到Riva的支持,但您可以查看 list of supported models is here

参考资料

[1] Conformer: Convolution-augmented Transformer for Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit [4] AISHELL-2: Transforming Mandarin ASR Research Into Industrial Scale

许可

此模型的许可使用受到 CC-BY-4.0 的约束。通过下载模型的公共和发布版本,您接受 CC-BY-4.0 许可的条款和条件。

.hf-sanitized.hk-sanitized-tC2FZBZtsFaMo_z7gl-0H img {display: inline;}