英文

基尼阿兰达、斯瓦希里语和卢干达语的多语种ASR

基尼阿兰达、斯瓦希里语和卢干达语的多语种ASR

如何使用此模型

该模型可在NeMo工具包[3]中使用,并可用作预训练的检查点进行推断,或用于在另一个数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained("mbazaNLP/stt_rw_sw_lg_conformer_ctc_large")

使用Python进行转录

首先,让我们取一个样本

wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav

然后只需执行:

asr_model.transcribe(['2086-149220-0033.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py  pretrained_name="mbazaNLP/stt_rw_sw_lg_conformer_ctc_large"  audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16000 KHz单声道音频(wav文件)作为输入。

输出

该模型提供给定音频样本的转录语音作为字符串。

模型架构

训练

<添加有关训练模型的信息-训练了多少个epoch、计算量等>

数据集

<列出用于训练此模型的数据集的名称和拆分(以及语言和任何其他信息)>

性能

<列出模型的得分-或使用Hugging Face Evaluate库上传指标>

局限性

例如:由于该模型是基于公开可用的语音数据集进行训练的,因此该模型在包含技术术语或模型未经训练的方言的语音中的性能可能会降低。该模型在带口音的语音中的表现也可能更差。

参考资料

[1] NVIDIA NeMo Toolkit