数据集:

Bingsu/zeroth-korean

语言:

ko

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

许可:

cc-by-4.0
英文

Zeroth-Korean

Zeroth-Korean

数据集包含韩语的转录音频数据。训练数据包含51.6小时的韩语音频数据(22,263个句子,105人,3000个句子),测试数据包含1.2小时的韩语音频数据(457个句子,10人)。该语料库还包含预训练/设计的语言模型、词典和基于形态素的分词器(morfessor)。Zeroth项目介绍了免费的韩语语音语料库,并旨在使韩语语音识别更广泛地供人使用。该项目是由Lucas Jo (@Atlas Guide Inc.) 和Wonkyum Lee (@Gridspace Inc.)合作开发的。

联系人:Lucas Jo (lucasjo@goodatlas.com),Wonkyum Lee (wonkyum@gridspace.com)

许可

CC BY 4.0

数据集结构

数据实例

>>> from datasets import load_dataset
>>> dataset = load_dataset("Bingsu/zeroth-korean")
>>> dataset
DatasetDict({
    train: Dataset({
        features: ['audio', 'text'],
        num_rows: 22263
    })
    test: Dataset({
        features: ['text', 'audio'],
        num_rows: 457
    })
})

数据大小

下载大小:2.68 GiB 生成大小:2.85 GiB 总大小:5.52 GiB

数据字段

  • audio:audio,采样率=16000
    • 包含下载音频文件的路径、解码后的音频数组和采样率的字典。
    • 请注意,访问音频列时:dataset[0]["audio"]自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此,在访问"audio"列之前,首先查询样本索引,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
  • text:string
>>> dataset["train"][0]
{'audio': {'path': None,
  'array': array([-3.0517578e-05,  0.0000000e+00, -3.0517578e-05, ...,
          0.0000000e+00,  0.0000000e+00, -6.1035156e-05], dtype=float32),
  'sampling_rate': 16000},
 'text': '인사를 결정하는 과정에서 당 지도부가 우 원내대표 및 원내지도부와 충분한 상의를 거치지 않은 채 일방적으로 인사를 했다는 불만도 원내지도부를 중심으로 흘러나왔다'}

数据拆分

train test
# of data 22263 457