数据集:

indonesian-nlp/librivox-indonesia

计算机处理:

multilingual

语言创建人:

crowdsourced

批注创建人:

crowdsourced

源数据集:

librivox

许可:

cc
英文

LibriVox Indonesia 1.0 数据集卡片

数据集概述

LibriVox Indonesia 数据集包含从公共领域有声读物生成的MP3音频和相应的文本文件。对于这个数据集,我们仅收集了印度尼西亚语言。原始的LibriVox有声读物或音频文件的持续时间从几分钟到几小时不等。现在,语音数据集中的每个音频文件持续时间为几秒钟到最长20秒钟。

我们使用我们开发的强制对齐软件将有声读物转换为语音数据集。该软件支持多语言,包括Acehnese、Balinese或Minangkabau等低资源语言。对于其他语言,我们也可以直接使用它进行模型训练,无需额外工作。

该数据集目前包含了7种印度尼西亚语言的8小时音频。随着收集更多语言或音频文件,我们将会添加更多内容。

语言

印度尼西亚语

数据集结构

数据实例

典型的数据点包括音频文件的路径和句子。其他字段包括阅读者和语言。

数据字段

路径 (string) : 音频文件的路径

语言 (string) : 音频文件的语言

阅读者 (string) : LibriVox中的阅读者ID

句子 (string) : 用户从书中朗读的句子

音频 (dict) : 包含下载的音频文件路径、解码的音频数组和采样率的字典。请注意,当访问音频列时,dataset[0]["audio"]会自动解码和重新采样为dataset.features["audio"].sampling_rate的数值。解码和重新采样大量音频文件可能需要较长时间。因此,在访问"audio"列之前,最好先查询样本索引,即dataset[0]["audio"]应始终优先于dataset["audio"][0]。

数据拆分

语音材料仅有train数据集。

数据集创建

策划原理

[需要更多信息]

数据来源

初始数据收集和标准化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时需要考虑的问题

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

公共领域, CC-0

引用信息