数据集:
Bingsu/KSS_Dataset
任务:
文本转语音语言:
ko计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
cc-by-nc-sa-4.0KSS 数据集是为韩文文本转语音任务而设计的。它包含由专业女声演员录制的音频文件,以及从我的书籍中提取的对齐文本。作为版权持有人,我按照出版商的要求将此数据集公开发布。据我所知,这是首个公开可用的韩文语音数据集。
transcript.v.1.3.txt 中的每一行由 | 分隔成六个字段。
例如:
1/1_0470.wav|저는 보통 20분 정도 낮잠을 잡니다.|저는 보통 이십 분 정도 낮잠을 잡니다.|저는 보통 이십 분 정도 낮잠을 잡니다.|4.1|我通常午睡20分钟。
NC-SA 4.0. 你不能将此数据集用于任何商业目的。否则,你可以自由使用它。
如果你想引用 KSS 数据集,请参考以下内容:
Kyubyong Park, KSS Dataset: Korean Single speaker Speech Dataset, https://kaggle.com/bryanpark/korean-single-speaker-speech-dataset , 2018
查看 this 以获取使用此 KSS 数据集的项目。
你可以通过电子邮件联系我:kbpark.linguist@gmail.com。
2018年4月。
Kyubyong Park
包含12,853个韩文音频文件及其转录。
文本转语音
韩语
>>> from datasets import load_dataset >>> dataset = load_dataset("Bingsu/KSS_Dataset") >>> dataset["train"].features {'audio': Audio(sampling_rate=44100, mono=True, decode=True, id=None), 'original_script': Value(dtype='string', id=None), 'expanded_script': Value(dtype='string', id=None), 'decomposed_script': Value(dtype='string', id=None), 'duration': Value(dtype='float32', id=None), 'english_translation': Value(dtype='string', id=None)}
>>> dataset["train"][0] {'audio': {'path': None, 'array': array([ 0.00000000e+00, 3.05175781e-05, -4.57763672e-05, ..., 0.00000000e+00, -3.05175781e-05, -3.05175781e-05]), 'sampling_rate': 44100}, 'original_script': '그는 괜찮은 척하려고 애쓰는 것 같았다.', 'expanded_script': '그는 괜찮은 척하려고 애쓰는 것 같았다.', 'decomposed_script': '그는 괜찮은 척하려고 애쓰는 것 같았다.', 'duration': 3.5, 'english_translation': 'He seemed to be pretending to be okay.'}
train | |
---|---|
# of examples | 12853 |