英文

模型概述

NVIDIA NeMo: 训练

为了进行训练、微调或使用该模型,您需要安装 NVIDIA NeMo 。我们建议您在安装最新版本的PyTorch之后再安装它。

pip install nemo_toolkit['all']

如何使用该模型

该模型可在NeMo工具包[3]中使用,并可用作预训练检查点进行推断或在其他数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained("mbazaNLP/Kinyarwanda_nemo_stt_conformer_model")

使用Python进行转录

首先,让我们获取一个示例

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后只需执行:

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py  pretrained_name="mbazaNLP/Kinyarwanda_nemo_stt_conformer_model"  audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16000 KHz单声道音频(wav文件)作为输入。

输出

该模型为给定音频样本提供转录后的语音字符串。

模型架构

训练

<添加关于模型如何训练的信息-有多少个周期、计算量等>

数据集

<列出用于训练该模型的数据集的名称和拆分(以及语言和任何其他信息)>

性能

<列出模型的分数-或使用Hugging Face Evaluate库上传指标>

限制

例如:由于该模型是在公开可用的语音数据集上进行训练的,所以对于包含技术术语或模型未经过训练的方言的语音,该模型的性能可能会降低。该模型对口音语音的表现也可能较差。

参考资料

[1] NVIDIA NeMo Toolkit