数据集:

Bingsu/KSS_Dataset

语言:

ko

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original
英文

原作者描述

KSS 数据集:韩文单一发言人语音数据集

KSS 数据集是为韩文文本转语音任务而设计的。它包含由专业女声演员录制的音频文件,以及从我的书籍中提取的对齐文本。作为版权持有人,我按照出版商的要求将此数据集公开发布。据我所知,这是首个公开可用的韩文语音数据集。

文件格式

transcript.v.1.3.txt 中的每一行由 | 分隔成六个字段。

  • A. 音频文件路径
  • B. 原始脚本
  • C. 扩展脚本
  • D. 分解脚本
  • E. 音频持续时间(秒)
  • F. 英文翻译

例如:

1/1_0470.wav|저는 보통 20분 정도 낮잠을 잡니다.|저는 보통 이십 분 정도 낮잠을 잡니다.|저는 보통 이십 분 정도 낮잠을 잡니다.|4.1|我通常午睡20分钟。

规格说明

许可证

NC-SA 4.0. 你不能将此数据集用于任何商业目的。否则,你可以自由使用它。

引用

如果你想引用 KSS 数据集,请参考以下内容:

Kyubyong Park, KSS Dataset: Korean Single speaker Speech Dataset, https://kaggle.com/bryanpark/korean-single-speaker-speech-dataset , 2018

参考

查看 this 以获取使用此 KSS 数据集的项目。

联系方式

你可以通过电子邮件联系我:kbpark.linguist@gmail.com。

2018年4月。

Kyubyong Park

数据集摘要

包含12,853个韩文音频文件及其转录。

支持的任务和排行榜

文本转语音

语言

韩语

数据集结构

数据实例

>>> from datasets import load_dataset

>>> dataset = load_dataset("Bingsu/KSS_Dataset")
>>> dataset["train"].features
{'audio': Audio(sampling_rate=44100, mono=True, decode=True, id=None),
 'original_script': Value(dtype='string', id=None),
 'expanded_script': Value(dtype='string', id=None),
 'decomposed_script': Value(dtype='string', id=None),
 'duration': Value(dtype='float32', id=None),
 'english_translation': Value(dtype='string', id=None)}
>>> dataset["train"][0]
{'audio': {'path': None,
  'array': array([ 0.00000000e+00,  3.05175781e-05, -4.57763672e-05, ...,
          0.00000000e+00, -3.05175781e-05, -3.05175781e-05]),
  'sampling_rate': 44100},
 'original_script': '그는 괜찮은 척하려고 애쓰는 것 같았다.',
 'expanded_script': '그는 괜찮은 척하려고 애쓰는 것 같았다.',
 'decomposed_script': '그는 괜찮은 척하려고 애쓰는 것 같았다.',
 'duration': 3.5,
 'english_translation': 'He seemed to be pretending to be okay.'}

数据拆分

train
# of examples 12853