要训练、微调或使用此模型,您需要安装 NVIDIA NeMo 。我们建议在安装最新的Pytorch版本后安装它。
pip install nemo_toolkit['all']
该模型可用于 NeMo 工具包 [1]中,并可用作预训练检查点,用于推断或在另一个数据集上进行微调。
import nemo.collections.asr as nemo_asr asr_model = nemo_asr.models.ASRModel.from_pretrained("ypluit/stt_kr_citrinet1024_PublicCallCenter_1000H_0.22")
首先,让我们获取一个样本
get any korean telephone voice wave file
然后只需执行:
asr_model.transcribe(['sample-kr.wav'])
python [NEMO_GIT_FOLDER]/examples/asr/transcribe_speech.py pretrained_name="model" audio_dir="<DIRECTORY CONTAINING AUDIO FILES>"
该模型接受16000Hz的单声道音频(wav文件)作为输入。
该模型为给定音频样本提供转录的语音字符串。
请参阅 nemo 工具包和参考文献。
在2个A6000上学习了大约30天
私人呼叫中心真实数据(1100小时)
< 0.13 语音错误率(CER)
该模型是使用650小时的韩语电话语音数据在客服呼叫中心进行训练的,可能在常规对话和特定口音方面表现不佳。