模型:

ypluit/stt_kr_citrinet1024_PublicCallCenter_1000H_0.22

英文

模型概述

NVIDIA NeMo: 训练

要训练、微调或使用此模型,您需要安装 NVIDIA NeMo 。我们建议在安装最新的Pytorch版本后安装它。

pip install nemo_toolkit['all']

如何使用此模型

该模型可用于 NeMo 工具包 [1]中,并可用作预训练检查点,用于推断或在另一个数据集上进行微调。

自动实例化模型

import nemo.collections.asr as nemo_asr
asr_model = nemo_asr.models.ASRModel.from_pretrained("ypluit/stt_kr_citrinet1024_PublicCallCenter_1000H_0.22")

使用Python进行转录

首先,让我们获取一个样本

get any korean telephone voice wave file

然后只需执行:

asr_model.transcribe(['sample-kr.wav'])

转录多个音频文件

python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py  pretrained_name="model"  audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"

输入

该模型接受16000Hz的单声道音频(wav文件)作为输入。

输出

该模型为给定音频样本提供转录的语音字符串。

模型架构

请参阅 nemo 工具包和参考文献。

训练

在2个A6000上学习了大约30天

数据集

私人呼叫中心真实数据(1100小时)

性能

< 0.13 语音错误率(CER)

限制

该模型是使用650小时的韩语电话语音数据在客服呼叫中心进行训练的,可能在常规对话和特定口音方面表现不佳。

参考文献

[1] NVIDIA NeMo Toolkit