英文

NVIDIA Conformer-Transducer Large (en-US)

| | |

这个模型可以将英文字母的语音转录为小写,同时包括空格和撇号。这是一个大型的Conformer-Transducer模型(大约有120M个参数)。具体的模型架构细节请参考 NeMo documentation

NVIDIA NeMo: 训练

要对模型进行训练、微调或者使用,您需要安装 NVIDIA NeMo 。我们建议您在安装最新版本的PyTorch后再安装它。

pip install nemo_toolkit['all']

如何使用该模型

这个模型可以在NeMo工具包[3]中使用,可以作为预训练的检查点用于推理,或者用于在另一个数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_en_conformer_transducer_large")

使用Python进行转录

首先,让我们获取一个示例。

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后只需要执行:

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_conformer_transducer_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16000 KHz的单声道音频(wav文件)作为输入。

输出

该模型会将转录后的语音作为字符串输出。

模型架构

Conformer-Transducer模型是Conformer模型[1]的自回归变体,用于自动语音识别,它使用Transducer损失/解码而不是CTC损失。有关该模型的详细信息,请参考 Conformer-Transducer Model

训练

NeMo工具包[3]用于对模型进行数百个时期的训练。这些模型使用了 example script base config 进行训练。

这些模型的分词器是使用训练集的文本转录使用 script 构建的。

数据集

此集合中的所有模型均使用复合数据集(NeMo ASRSET)进行训练,其中包括数千个小时的英语语音:

  • Librispeech 960小时的英语语音
  • Fisher Corpus
  • Switchboard-1数据集
  • WSJ-0和WSJ-1
  • National Speech Corpus(Part 1、Part 6)
  • VCTK
  • VoxPopuli(EN)
  • Europarl-ASR(EN)
  • Multilingual Librispeech(MLS EN)- 2,000小时子集
  • Mozilla Common Voice(v8.0)
  • People's Speech-12,000小时子集

注意:旧版本的模型可能在更小的数据集上进行了训练。

性能

该集合中可用模型的列表在以下表格中显示。ASR模型的性能以词错误率(WER%)与贪婪解码进行报告。

Version Tokenizer Vocabulary Size LS test-other LS test-clean WSJ Eval92 WSJ Dev93 NSC Part 1 MLS Test MCV Test 6.1 MCV Test 8.0 Train Dataset
1.10.0 SentencePiece Unigram 1024 3.7 1.7 1.5 2.1 5.9 5.8 6.5 7.8 NeMo ASRSET 3.0

限制

由于该模型是在公开可用的语音数据集上进行训练的,因此该模型对包含技术术语或模型未经过训练的方言的语音的性能可能会下降。对于带有口音的语音,模型的性能可能会更差。

NVIDIA Riva: 部署

NVIDIA Riva ,是一种可在本地部署、在所有云、多云、混合云、边缘和嵌入式环境中加速的语音AI SDK。此外,Riva还提供以下功能:

  • 针对最常见语言的开箱即用的世界级准确性,使用数十万个GPU计算小时的专有数据进行模型检查点训练
  • 在运行时提供最佳准确性的单词提升(例如,品牌和产品名称)以及声学模型、语言模型和逆文本归一化的自定义
  • 流式语音识别,兼容Kubernetes的扩展能力以及企业级支持

尽管此模型目前尚未得到Riva的支持,详细信息请参见 list of supported models is here 。请查看 Riva live demo

参考文献

[1] Conformer: Convolution-augmented Transformer for Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit

许可证

使用该模型的许可受到 CC-BY-4.0 的覆盖。通过下载公开和发布版本的模型,您接受 CC-BY-4.0 许可协议的条款和条件。

.hf-sanitized.hf-sanitized-xJte18sP26UNK3Dzn4KA5 img {display: inline;}