模型:

eesungkim/stt_kr_conformer_transducer_large

英文

模型概述

NVIDIA NeMo: 训练

要训练、微调或使用模型,您需要安装 NVIDIA NeMo 。我们建议您在安装最新版本的Pytorch之后再安装它。

pip install nemo_toolkit['all']

如何使用此模型

该模型可在NeMo工具包[1]中使用,并可用作进行推理的预训练检查点或在另一个数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained("eesungkim/stt_kr_conformer_transducer_large")

使用Python进行转录

首先,让我们获得一个样本

wget https://dldata-public.s3.us-east-2.amazonaws.com/sample-kor.wav

然后只需执行:

asr_model.transcribe(['sample-kor.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py  pretrained_name="eesungkim/stt_kr_conformer_transducer_large"  audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

此模型接受16000 KHz单声道音频(wav文件)作为输入。

输出

此模型为给定音频样本提供转录的语音字符串。

模型架构

Conformer-Transducer模型是自动语音识别的Conformer模型[2]的自回归变体,使用转录损失/解码。您可以在这里找到有关此模型详细信息:

Conformer-Transducer Model

训练

该模型是基于预训练的英文模型进行微调的,经过多个时期的训练。

对于韩语语音识别,存在几种转录和子词建模方法。该模型使用基于音标转录的韩文字句子片段的Google Sentencepiece Tokenizer[3]。

数据集

集合中的所有模型都是在 Ksponspeech 数据集上进行训练的,该数据集是由2000名韩语母语者在受控且安静的环境中录制的开放域对话语料库。标准拆分数据集包括965小时的训练集,4小时的开发集,3小时的测试-清晰和4小时的测试-其他。

性能

Version Tokenizer eval_clean CER eval_other CER eval_clean WER eval_other WER
v1.7.0rc SentencePiece Char 6.94% 7.38% 19.49% 22.73%

限制

由于该模型是在公开可用的语音数据集上进行训练的,因此该模型在包含技术术语或模型未经训练的本土语的语音中的性能可能会降低。模型对有口音的语音可能表现较差。

该模型产生一个口语标记序列。如果您想要书面形式,可以考虑应用逆文本规范化。

参考

[1] NVIDIA NeMo Toolkit

[2] Conformer: Convolution-augmented Transformer for Speech Recognition

[3] Google Sentencepiece Tokenizer