模型:
mbazaNLP/stt_rw_sw_lg_conformer_ctc_large
基尼阿兰达、斯瓦希里语和卢干达语的多语种ASR
该模型可在NeMo工具包[3]中使用,并可用作预训练的检查点进行推断,或用于在另一个数据集上进行微调。
import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.ASRModel.from_pretrained("mbazaNLP/stt_rw_sw_lg_conformer_ctc_large")
首先,让我们取一个样本
wget https://dldata-public.s3.us-east-2.amazonaws.com/2086-149220-0033.wav
然后只需执行:
asr_model.transcribe(['2086-149220-0033.wav'])
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py pretrained_name="mbazaNLP/stt_rw_sw_lg_conformer_ctc_large" audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
该模型接受16000 KHz单声道音频(wav文件)作为输入。
该模型提供给定音频样本的转录语音作为字符串。
<添加有关训练模型的信息-训练了多少个epoch、计算量等>
<列出用于训练此模型的数据集的名称和拆分(以及语言和任何其他信息)>
<列出模型的得分-或使用Hugging Face Evaluate库上传指标>
例如:由于该模型是基于公开可用的语音数据集进行训练的,因此该模型在包含技术术语或模型未经训练的方言的语音中的性能可能会降低。该模型在带口音的语音中的表现也可能更差。