数据集:
Bingsu/zeroth-korean
数据集包含韩语的转录音频数据。训练数据包含51.6小时的韩语音频数据(22,263个句子,105人,3000个句子),测试数据包含1.2小时的韩语音频数据(457个句子,10人)。该语料库还包含预训练/设计的语言模型、词典和基于形态素的分词器(morfessor)。Zeroth项目介绍了免费的韩语语音语料库,并旨在使韩语语音识别更广泛地供人使用。该项目是由Lucas Jo (@Atlas Guide Inc.) 和Wonkyum Lee (@Gridspace Inc.)合作开发的。
联系人:Lucas Jo (lucasjo@goodatlas.com),Wonkyum Lee (wonkyum@gridspace.com)
CC BY 4.0
>>> from datasets import load_dataset >>> dataset = load_dataset("Bingsu/zeroth-korean") >>> dataset DatasetDict({ train: Dataset({ features: ['audio', 'text'], num_rows: 22263 }) test: Dataset({ features: ['text', 'audio'], num_rows: 457 }) })
下载大小:2.68 GiB 生成大小:2.85 GiB 总大小:5.52 GiB
>>> dataset["train"][0] {'audio': {'path': None, 'array': array([-3.0517578e-05, 0.0000000e+00, -3.0517578e-05, ..., 0.0000000e+00, 0.0000000e+00, -6.1035156e-05], dtype=float32), 'sampling_rate': 16000}, 'text': '인사를 결정하는 과정에서 당 지도부가 우 원내대표 및 원내지도부와 충분한 상의를 거치지 않은 채 일방적으로 인사를 했다는 불만도 원내지도부를 중심으로 흘러나왔다'}
train | test | |
---|---|---|
# of data | 22263 | 457 |