数据集:

multilingual_librispeech

英文

MultiLingual LibriSpeech 数据集卡片

数据集概述

废弃:该旧版本数据集不支持流式处理,且不再更新。请使用 "facebook/multilingual_librispeech" 替代。

Multilingual LibriSpeech (MLS) 数据集是一个适用于语音研究的大型多语种语音语料库。该数据集派生自 LibriVox 的朗读有声书,包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语共 8 种语言。

支持的任务和排行榜

  • 自动语音识别、音频说话人识别:该数据集可用于训练自动语音识别 (ASR) 模型。向模型提供音频文件并要求将其转录成文字。最常用的评估指标是词错误率 (WER)。该任务有一个活动排行榜,可在 https://paperswithcode.com/dataset/multilingual-librispeech 上找到,根据 WER 对模型进行排名。

语言

该数据集派生自 LibriVox 的朗读有声书,包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语共 8 种语言。

数据集结构

数据实例

典型的数据点包括音频文件的路径,通常称为 "file",以及转录文本,称为 "text"。还提供有关说话人和包含转录的段落的其他信息。

{'chapter_id': 141231,
 'file': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac',
  'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346,
          0.00091553,  0.00085449], dtype=float32),
  'sampling_rate': 16000},
 'id': '1272-141231-0000',
 'speaker_id': 1272,
 'text': 'A MAN SAID TO THE UNIVERSE SIR I EXIST'}

数据字段

  • file: 下载的音频文件的路径,格式为 .flac。

  • audio: 包含下载的音频文件路径、解码后的音频数组和采样率的字典。注意,访问音频列时,dataset[0]["audio"] 会自动解码和重新采样为 dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要大量时间。因此,在访问 "audio" 列之前,首先查询样本索引是非常重要的,即 dataset[0]["audio"] 应始终优先于 dataset["audio"][0]。

  • text: 音频文件的转录文本。

  • id: 数据样本的唯一标识符。

  • speaker_id: 说话人的唯一标识符。同一说话人的标识符可能出现在多个数据样本中。

  • chapter_id: 包含转录的有声书章节的标识符。

数据拆分

Train Train.9h Train.1h Dev Test
german 469942 2194 241 3469 3394
dutch 374287 2153 234 3095 3075
french 258213 2167 241 2416 2426
spanish 220701 2110 233 2408 2385
italian 59623 2173 240 1248 1262
portuguese 37533 2116 236 826 871
polish 25043 2173 238 512 520

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和规范化

[需要更多信息]

语言数据的原始产生者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

该数据集包含在线捐赠他们的声音的人。您同意不试图确定数据集中说话者的身份。

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

公有领域,创作共用署名4.0国际公共许可证 ( CC-BY-4.0 )

引用信息

@article{Pratap2020MLSAL,
  title={MLS: A Large-Scale Multilingual Dataset for Speech Research},
  author={Vineel Pratap and Qiantong Xu and Anuroop Sriram and Gabriel Synnaeve and Ronan Collobert},
  journal={ArXiv},
  year={2020},
  volume={abs/2012.03411}
}

贡献者

感谢 @patrickvonplaten 添加了该数据集。