数据集:
indonesian-nlp/librivox-indonesia
LibriVox Indonesia 数据集包含从公共领域有声读物生成的MP3音频和相应的文本文件。对于这个数据集,我们仅收集了印度尼西亚语言。原始的LibriVox有声读物或音频文件的持续时间从几分钟到几小时不等。现在,语音数据集中的每个音频文件持续时间为几秒钟到最长20秒钟。
我们使用我们开发的强制对齐软件将有声读物转换为语音数据集。该软件支持多语言,包括Acehnese、Balinese或Minangkabau等低资源语言。对于其他语言,我们也可以直接使用它进行模型训练,无需额外工作。
该数据集目前包含了7种印度尼西亚语言的8小时音频。随着收集更多语言或音频文件,我们将会添加更多内容。
典型的数据点包括音频文件的路径和句子。其他字段包括阅读者和语言。
路径 (string) : 音频文件的路径
语言 (string) : 音频文件的语言
阅读者 (string) : LibriVox中的阅读者ID
句子 (string) : 用户从书中朗读的句子
音频 (dict) : 包含下载的音频文件路径、解码的音频数组和采样率的字典。请注意,当访问音频列时,dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate的数值。解码和重新采样大量音频文件可能需要较长时间。因此,在访问"audio"列之前,最好先查询样本索引,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。
语音材料仅有train数据集。
[需要更多信息]
[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
公共领域, CC-0