数据集:

facebook/multilingual_librispeech

计算机处理:

multilingual

大小:

100K<n<1M

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:2012.03411

许可:

cc-by-4.0
英文

MultiLingual LibriSpeech 数据集卡片

数据集概述

这是 Multilingual LibriSpeech (MLS) 数据集的可流式版本。数据归档已从原始的 OpenSLR 重组,以便更容易进行流式处理。

MLS 数据集是一个适用于语音研究的大型多语言语料库。该数据集源自 LibriVox 的朗读有声书,包括 8 种语言 - 英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语。

支持的任务和排行榜

  • 自动语音识别、说话人识别:该数据集可用于训练自动语音识别 (ASR) 模型。模型会提供一个音频文件,并要求将音频转录成书面文本。最常用的评估指标是词错误率 (WER)。该任务有一个活跃的排行榜,可在 https://paperswithcode.com/dataset/multilingual-librispeech 找到,根据 WER 对模型进行排名。

语言

该数据集源自 LibriVox 的朗读有声书,包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语这8种语言。

如何使用

datasets 库提供了加载和预处理数据集的纯 Python 方法。您可以使用 load_dataset 函数一次性将数据集下载并准备好保存到本地驱动器中。

例如,要下载德语配置,只需指定相应的语言配置名(即 "german" 表示德语):

from datasets import load_dataset

mls = load_dataset("facebook/multilingual_librispeech", "german", split="train")

使用 datasets 库,您还可以通过将 streaming=True 参数添加到 load_dataset 函数调用中,实时流式处理数据集。以流式模式加载数据集会逐个加载数据样本,而不是将整个数据集下载到磁盘上。

from datasets import load_dataset

mls = load_dataset("facebook/multilingual_librispeech", "german", split="train", streaming=True)

print(next(iter(mls)))

Bonus:通过您自己的数据集(本地/流式),直接创建 PyTorch dataloader

本地:

from datasets import load_dataset
from torch.utils.data.sampler import BatchSampler, RandomSampler

mls = load_dataset("facebook/multilingual_librispeech", "german", split="train")
batch_sampler = BatchSampler(RandomSampler(mls), batch_size=32, drop_last=False)
dataloader = DataLoader(mls, batch_sampler=batch_sampler)

流式:

from datasets import load_dataset
from torch.utils.data import DataLoader

mls = load_dataset("facebook/multilingual_librispeech", "german", split="train", streaming=True)
dataloader = DataLoader(mls, batch_size=32)

要了解有关加载和准备音频数据集的更多信息,请访问 hf.co/blog/audio-datasets

示例脚本

使用 transformers - here ,在 MultiLingual Librispeech 上训练自己的 CTC 或 Seq2Seq 自动语音识别模型。

数据集结构

数据实例

典型的数据点包括音频文件的路径,通常称为 file,及其转录内容,称为 text。还提供了有关说话人和包含转录内容的段落的其他信息。

{'file': '10900_6473_000030.flac',
 'audio': {'path': '10900_6473_000030.flac',
  'array': array([-1.52587891e-04,  6.10351562e-05,  0.00000000e+00, ...,
          4.27246094e-04,  5.49316406e-04,  4.57763672e-04]),
  'sampling_rate': 16000},
 'text': 'więc czego chcecie odemnie spytałem wysłuchawszy tego zadziwiającego opowiadania broń nas stary człowieku broń zakrzyknęli równocześnie obaj posłowie\n',
 'speaker_id': 10900,
 'chapter_id': 6473,
 'id': '10900_6473_000030'}

数据字段

  • 文件(file):文件名.flac格式。

  • 音频(audio):包含音频文件名、解码后的音频数组和采样率的字典。请注意,当访问 audio 列时:dataset[0]["audio"],音频文件会自动解码并重采样为 dataset.features["audio"].sampling_rate。解码和重采样大量音频文件可能需要很长时间。因此,在访问 "audio" 列之前最好先查询样本索引,即 dataset[0]["audio"] 应始终优先于 dataset["audio"][0]。

  • 文本(text):音频文件的转录内容。

  • id:数据样本的唯一ID。

  • speaker_id:说话人的唯一ID。同一个说话人ID可能对应多个数据样本。

  • chapter_id:包含转录内容的有声书章节的ID。

数据拆分

Train Train.9h Train.1h Dev Test
german 469942 2194 241 3469 3394
dutch 374287 2153 234 3095 3075
french 258213 2167 241 2416 2426
spanish 220701 2110 233 2408 2385
italian 59623 2173 240 1248 1262
portuguese 37533 2116 236 826 871
polish 25043 2173 238 512 520

数据集创建

策划理由

[需要更多信息]

源数据

数据收集和标准化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

该数据集包含在线捐赠其声音的人们。您同意不尝试确定数据集中说话者的身份。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏差讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

[需要更多信息]

许可信息

公共领域,知识共享署名4.0国际许可证 ( CC-BY-4.0 )

引用信息

@article{Pratap2020MLSAL,
  title={MLS: A Large-Scale Multilingual Dataset for Speech Research},
  author={Vineel Pratap and Qiantong Xu and Anuroop Sriram and Gabriel Synnaeve and Ronan Collobert},
  journal={ArXiv},
  year={2020},
  volume={abs/2012.03411}
}

贡献

感谢 @patrickvonplaten @polinaeterna 添加了这个数据集。