模型:

nvidia/stt_en_conformer_transducer_xlarge

任务:

类库:

数据集:

librispeech_asr fisher_corpus Switchboard-1 WSJ-0 WSJ-1 National-Singapore-Corpus-Part-1 National-Singapore-Corpus-Part-6 vctk VoxPopuli-(EN) Europarl-ASR-(EN) Multilingual-LibriSpeech-(2000-hours) mozilla-foundation/common_voice_8_0 MLCommons/peoples_speech 3AMLCommons/peoples_speech 3Amozilla-foundation/common_voice_8_0 3AMultilingual-LibriSpeech-(2000-hours) 3AEuroparl-ASR-(EN) 3AVoxPopuli-(EN) 3Avctk 3ANational-Singapore-Corpus-Part-6 3ANational-Singapore-Corpus-Part-1 3AWSJ-1 3AWSJ-0 3ASwitchboard-1 3Afisher_corpus 3Alibrispeech_asr

语言:

其他:

speech audio Transducer Conformer Transformer NeMo hf-asr-leaderboard Eval Results

预印本库:

arxiv:2005.08100

许可:

cc-by-4.0

模型介绍文件清单

英文

NVIDIA Conformer-Transducer X-Large (en-US)

| | |

此模型将语音转录为小写英文字母，包括空格和撇号。它是Conformer-Transducer的“超大”版本（大约600M参数）。有关完整的架构详细信息，请参见模型架构部分和 NeMo documentation 。

NVIDIA NeMo：训练

要训练、微调或使用该模型，您需要安装 NVIDIA NeMo 。我们建议在安装最新的Pytorch版本后进行安装。

pip install nemo_toolkit['all']
'''
'''
(if it causes an error): 
pip install nemo_toolkit[all]

如何使用此模型

该模型可在NeMo工具包[3]中使用，并可用作预训练检查点，用于推理或在另一个数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecRNNTBPEModel.from_pretrained("nvidia/stt_en_conformer_transducer_xlarge")

使用Python进行转录

首先，让我们获得一个样本

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后只需执行：

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_en_conformer_transducer_xlarge" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

此模型接受16000 KHz单声道音频（wav文件）作为输入。

输出

此模型会为给定的音频样本提供转录的语音字符串。

模型架构

Conformer-Transducer模型是Conformer模型[1]的自回归变体，用于自动语音识别，它使用Transducer损失/解码，而不是CTC损失。您可以在此处找到有关此模型详细信息的更多信息： Conformer-Transducer Model 。

训练

使用NeMo工具包[3]对模型进行了数百个epoch的训练。这些模型是使用 example script 和 base config 进行训练的。

这些模型的分词器是使用训练集的文本转录本通过 script 构建的。

数据集

该集合中的所有模型都是在组合数据集（NeMo ASRSET）上进行训练的，该数据集包含数千小时的英语语音：

Librispeech 960小时的英语语音
Fisher Corpus
Switchboard-1 数据集
WSJ-0和WSJ-1
国家语料库（第一部分，第六部分）
VCTK
VoxPopuli（EN）
Europarl-ASR（EN）
多语言Librispeech（MLS EN）- 2,000小时子集
Mozilla Common Voice（v8.0）
People's Speech- 12,000小时子集

注意：旧版本的模型可能在较小的数据集上进行训练。

性能

此集合中可用模型的列表显示在以下表格中。ASR模型的性能以贪婪解码的词错误率（WER％）进行报告。

Version	Tokenizer	Vocabulary Size	LS test-other	LS test-clean	WSJ Eval92	WSJ Dev93	NSC Part 1	MLS Test	MLS Dev	MCV Test 8.0	Train Dataset
1.10.0	SentencePiece Unigram	1024	3.01	1.62	1.17	2.05	5.70	5.32	4.59	6.46	NeMo ASRSET 3.0

限制

由于该模型是在公开可用的语音数据集上进行训练的，因此该模型对包含技术术语或模型未经过训练的方言的语音的性能可能会降低。该模型对带有口音的语音表现也较差。

NVIDIA Riva：部署

NVIDIA Riva 是一款在本地、所有云端、多云、混合云、边缘和嵌入式设备上部署的加速语音 AI SDK。此外，Riva还提供以下功能：

针对常见语言的开箱即用的世界级准确性，模型检查点是通过数十万个GPU计算小时的专有数据进行训练的
通过运行时词增强（例如品牌和产品名称）以及自定义声学模型、语言模型和逆文本规范化实现最佳准确性
流式语音识别、与Kubernetes兼容的扩展能力和企业级支持

尽管这个模型目前还不受Riva支持，但 list of supported models is here 支持的模型可以使用。请查看 Riva live demo 。

参考文献

[1] Conformer: Convolution-augmented Transformer for Speech Recognition [2] Google Sentencepiece Tokenizer [3] NVIDIA NeMo Toolkit

许可

使用此模型的许可受 CC-BY-4.0 的约束。下载公开和发布版本的模型即表示您接受 CC-BY-4.0 许可条款和条件。

.hf-sanitized.hf-sanitized-Sbx3-WyxYhIulyxva1Mow img {display: inline;}

作者:

NVIDIA

数据集大小:

2.4 GB