模型:

nvidia/stt_ru_conformer_ctc_large

任务:

类库:

数据集:

mozilla-foundation/common_voice_10_0 SberDevices/Golos Russian-LibriSpeech SOVA-Dataset 3ASOVA-Dataset 3ARussian-LibriSpeech 3ASberDevices/Golos 3Amozilla-foundation/common_voice_10_0

语言:

其他:

speech audio CTC Conformer Transformer NeMo hf-asr-leaderboard Riva Eval Results

预印本库:

arxiv:2005.08100

许可:

cc-by-4.0

模型介绍文件清单

英文

NVIDIA Conformer-CTC Large（俄文）

| | |

该模型将语音转录成小写的西里尔字母，包括空格，训练数据包括大约1636小时的俄文语音数据。这是一种非自回归的“大”Conformer变体，具有大约1.2亿个参数。有关完整的架构细节，请参见模型架构部分和 NeMo documentation 。

使用

该模型可供NeMo工具包[3]使用，并可用作用于预训练检查点以进行推理或在其他数据集上进行微调。

要训练、微调或使用该模型，请先安装 NVIDIA NeMo 。我们建议在安装最新的PyTorch版本后安装该模块。

pip install nemo_toolkit['all']

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.EncDecCTCModelBPE.from_pretrained(model_name="stt_ru_conformer_ctc_large")

使用Python进行转录

只需执行以下操作：

asr_model.transcribe(['<your_audio>.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py 
 pretrained_name="nvidia/stt_ru_conformer_ctc_large" 
 audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16 kHz 单声道音频（wav文件）作为输入。

输出

该模型提供给定音频样本的转录文本字符串。

模型架构

Conformer-CTC模型是Conformer模型的非自回归变体[1]，用于自动语音识别，它使用CTC损失/解码代替传输损失。您可以在此处找到有关此模型详细信息的更多信息： Conformer-CTC Model 。

训练

使用NeMo工具包[3]在数百个周期内训练了这些模型。这些模型是使用此 example script 和此 base config 进行训练的。

这些模型的标记器是使用训练集的文本转录文件构建的，使用此 script 进行处理。

我们使用的词汇表包含33个字符：

[' ', 'а', 'б', 'в', 'г', 'д', 'е', 'ж', 'з', 'и', 'й', 'к', 'л', 'м', 'н', 'о', 'п', 'р', 'с', 'т', 'у', 'ф', 'х', 'ц', 'ч', 'ш', 'щ', 'ъ', 'ы', 'ь', 'э', 'ю', 'я']

预处理期间会替换具有变音符号的稀有符号。

这些模型的标记器是使用训练集的文本转录文件构建的，使用此 script 进行处理。

数据集

该集合中的所有模型都是在组合数据集（NeMo ASRSET）上训练的，该数据集包括超过一千小时的俄文语音：

Mozilla Common Voice 10.0（俄文）- 训练子集[28小时]
Golos - 众包[1070小时]和菲尔德[111小时]子集
Russian LibriSpeech（RuLS）[92小时]
SOVA - RuAudiobooksDevices[260小时]和RuDevices[75小时]子集

性能

该系列中可用模型的列表显示在以下表中。ASR模型的性能以贪婪解码的单词错误率（WER％）报告。

Version	Tokenizer	Vocabulary Size	MCV 10.0 dev	MCV 10.0 test	GOLOS-crowd test	GOLOS-farfield test	RuLS test	Train Dataset
1.13.0	SentencePiece Unigram	128	3.94	4.28	2.77	7.15	13.60	NeMo ASRSET

局限性

由于该模型是在公开可用的语音数据集上训练的，所以该模型在包含技术术语或模型未经过训练的方言的语音中的性能可能会下降。该模型在带口音的语音上的表现也可能较差。

使用NVIDIA Riva进行部署

为获得最佳的实时准确性、延迟和吞吐量，使用NVIDIA Riva将模型部署为 NVIDIA Riva ，这是一个可在本地、多云、混合云、边缘和嵌入式系统上运行的加速语音AI SDK。此外，Riva还提供：

在最常见语言上具有世界一流的开箱即用准确性，模型检查点是使用数十万小时的GPU计算训练的专有数据
最佳的准确性与运行时单词增强（例如品牌和产品名称）以及对声学模型、语言模型和逆文本归一化的自定义
流式语音识别，兼容Kubernetes的扩展性和企业级支持。请查看 Riva live demo 。

参考资料

.hf-sanitized.hf-sanitized-iqztotM9dSucJoJ_RwlC9 img {display: inline;}

作者:

NVIDIA

数据集大小:

464.16 MB