英文

NVIDIA流媒体Citrinet 1024(en-US)

| | | | |

这个模型用于音频转录为小写英文字母,包括空格和撇号,并在数千小时的英语音频数据上训练。它是Streaming Citrinet的非自回归“大”变种,具有大约1.4亿个参数。有关完整的架构细节,请参见模型架构部分和 NeMo documentation 。它还与NVIDIA Riva兼容,可用于生产级服务器部署。

使用方法

该模型可在NeMo工具包[3]中使用,并可用作推理的预训练检查点或在其他数据集上进行微调。

要进行训练、微调或操作模型,您需要安装 NVIDIA NeMo 。我们建议您在安装最新的PyTorch版本后再安装它。

pip install nemo_toolkit['all']

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained("nvidia/stt_en_citrinet_1024_gamma_0_25")

使用Python进行转录

首先,让我们获取一个示例

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后只需执行:

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_citrinet_1024_gamma_0_25" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16000 kHz单声道音频(wav文件)作为输入。

输出

该模型提供给定音频样本的转录结果字符串。

模型架构

Streaming Citrinet-1024模型是Citrinet模型[1]的非自回归流式变体,用CTC损失/解码代替转导器。您可以在此处了解有关该模型的更多信息: Citrinet Model

训练

使用NeMo工具包进行了数百个epoch的模型训练。该模型在此 example script base config 下进行了训练。

该模型的分词器是使用训练集的文本转录结果以及此 script 构建的。

数据集

此集合中的所有模型都是在包含几千小时的英语音频的复合数据集(NeMo ASRSET)上进行训练的:

  • Librispeech 960小时的英语音频
  • Fisher语料库
  • Switchboard-1数据集
  • WSJ-0和WSJ-1
  • 全国语音语料库(第1部分,第6部分)

注意:旧版本的模型可能基于较小的数据集进行了训练。

性能

此集合中可用模型的列表显示在下表中。ASR模型的性能以词错误率(WER%)与贪婪解码进行报告。

Version Tokenizer Vocabulary Size LS test-other LS test-clean WSJ Eval92 WSJ Dev93 NSC Part 1 Train Dataset
1.0.0 SentencePiece Unigram 1024 7.6 3.4 2.5 4.0 6.2 NeMo ASRSET 1.0

在使用 NVIDIA Riva 部署时,您可以将该模型与外部语言模型结合使用,以进一步提高WER。最新模型在不同语言建模技术下的WER(%)在下表中报告。

局限性

由于该模型是在公开可用的语音数据集上进行训练的,因此该模型在包含技术术语或其未经训练的土语的音频中的性能可能会下降。对于带有口音的语音,模型的性能可能也较差。

使用NVIDIA Riva进行部署

为了获得最佳的实时准确性、延迟和吞吐量,请使用可以在本地、多云、混合云、边缘和嵌入式系统中部署的加速语音AI SDK - NVIDIA Riva 进行模型部署。此外,Riva还提供:

  • 通过在专有数据上进行数十万小时的GPU计算进行了模型训练的最常见语言的开箱即用准确性
  • 以及声学模型、语言模型和逆文本归一化的运行时词提升(例如品牌和产品名称)和定制化的最佳准确性
  • 流式语音识别、与Kubernetes兼容的扩展和企业级支持,请查看 Riva live demo

参考资料

[1] Citrinet: Closing the Gap between Non-Autoregressive and Autoregressive End-to-End Models for Automatic Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit

.hf-sanitized.hf-sanitized-qgrbYmP3t8AkG8T21JIHP img {display: inline;}