数据集:

multilingual_librispeech

任务:

自动语音识别

音频分类

子任务:

speaker-identification

语言:

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

crowdsourced expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2012.03411

许可:

cc-by-4.0

数据集介绍文件清单

英文

MultiLingual LibriSpeech 数据集卡片

数据集概述

废弃：该旧版本数据集不支持流式处理，且不再更新。请使用 "facebook/multilingual_librispeech" 替代。

Multilingual LibriSpeech (MLS) 数据集是一个适用于语音研究的大型多语种语音语料库。该数据集派生自 LibriVox 的朗读有声书，包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语共 8 种语言。

支持的任务和排行榜

自动语音识别、音频说话人识别：该数据集可用于训练自动语音识别 (ASR) 模型。向模型提供音频文件并要求将其转录成文字。最常用的评估指标是词错误率 (WER)。该任务有一个活动排行榜，可在 https://paperswithcode.com/dataset/multilingual-librispeech 上找到，根据 WER 对模型进行排名。

语言

该数据集派生自 LibriVox 的朗读有声书，包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语共 8 种语言。

数据集结构

数据实例

典型的数据点包括音频文件的路径，通常称为 "file"，以及转录文本，称为 "text"。还提供有关说话人和包含转录的段落的其他信息。

{'chapter_id': 141231,
 'file': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
          0.00091553,  0.00085449], dtype=float32),
  'sampling_rate': 16000},
 'id': '1272-141231-0000',
 'speaker_id': 1272,
 'text': 'A MAN SAID TO THE UNIVERSE SIR I EXIST'}

数据字段

file: 下载的音频文件的路径，格式为 .flac。
audio: 包含下载的音频文件路径、解码后的音频数组和采样率的字典。注意，访问音频列时，dataset[0]["audio"] 会自动解码和重新采样为 dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要大量时间。因此，在访问 "audio" 列之前，首先查询样本索引是非常重要的，即 dataset[0]["audio"] 应始终优先于 dataset["audio"][0]。
text: 音频文件的转录文本。
id: 数据样本的唯一标识符。
speaker_id: 说话人的唯一标识符。同一说话人的标识符可能出现在多个数据样本中。
chapter_id: 包含转录的有声书章节的标识符。

数据拆分

Train	Train.9h	Train.1h	Dev	Test
german	469942	2194	241	3469	3394
dutch	374287	2153	234	3095	3075
french	258213	2167	241	2416	2426
spanish	220701	2110	233	2408	2385
italian	59623	2173	240	1248	1262
portuguese	37533	2116	236	826	871
polish	25043	2173	238	512	520

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和规范化

[需要更多信息]

语言数据的原始产生者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

该数据集包含在线捐赠他们的声音的人。您同意不试图确定数据集中说话者的身份。

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

公有领域，创作共用署名4.0国际公共许可证 ( CC-BY-4.0 )

引用信息

@article{Pratap2020MLSAL,
  title={MLS: A Large-Scale Multilingual Dataset for Speech Research},
  author={Vineel Pratap and Qiantong Xu and Anuroop Sriram and Gabriel Synnaeve and Ronan Collobert},
  journal={ArXiv},
  year={2020},
  volume={abs/2012.03411}
}

贡献者

感谢 @patrickvonplaten 添加了该数据集。

作者:

佚名

数据集大小:

34.7 KB