数据集:
facebook/multilingual_librispeech
任务:
自动语音识别计算机处理:
multilingual大小:
100K<n<1M批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2012.03411许可:
cc-by-4.0这是 Multilingual LibriSpeech (MLS) 数据集的可流式版本。数据归档已从原始的 OpenSLR 重组,以便更容易进行流式处理。
MLS 数据集是一个适用于语音研究的大型多语言语料库。该数据集源自 LibriVox 的朗读有声书,包括 8 种语言 - 英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语。
该数据集源自 LibriVox 的朗读有声书,包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语、波兰语这8种语言。
datasets 库提供了加载和预处理数据集的纯 Python 方法。您可以使用 load_dataset 函数一次性将数据集下载并准备好保存到本地驱动器中。
例如,要下载德语配置,只需指定相应的语言配置名(即 "german" 表示德语):
from datasets import load_dataset mls = load_dataset("facebook/multilingual_librispeech", "german", split="train")
使用 datasets 库,您还可以通过将 streaming=True 参数添加到 load_dataset 函数调用中,实时流式处理数据集。以流式模式加载数据集会逐个加载数据样本,而不是将整个数据集下载到磁盘上。
from datasets import load_dataset mls = load_dataset("facebook/multilingual_librispeech", "german", split="train", streaming=True) print(next(iter(mls)))
Bonus:通过您自己的数据集(本地/流式),直接创建 PyTorch dataloader 。
本地:
from datasets import load_dataset from torch.utils.data.sampler import BatchSampler, RandomSampler mls = load_dataset("facebook/multilingual_librispeech", "german", split="train") batch_sampler = BatchSampler(RandomSampler(mls), batch_size=32, drop_last=False) dataloader = DataLoader(mls, batch_sampler=batch_sampler)
流式:
from datasets import load_dataset from torch.utils.data import DataLoader mls = load_dataset("facebook/multilingual_librispeech", "german", split="train", streaming=True) dataloader = DataLoader(mls, batch_size=32)
要了解有关加载和准备音频数据集的更多信息,请访问 hf.co/blog/audio-datasets 。
使用 transformers - here ,在 MultiLingual Librispeech 上训练自己的 CTC 或 Seq2Seq 自动语音识别模型。
典型的数据点包括音频文件的路径,通常称为 file,及其转录内容,称为 text。还提供了有关说话人和包含转录内容的段落的其他信息。
{'file': '10900_6473_000030.flac', 'audio': {'path': '10900_6473_000030.flac', 'array': array([-1.52587891e-04, 6.10351562e-05, 0.00000000e+00, ..., 4.27246094e-04, 5.49316406e-04, 4.57763672e-04]), 'sampling_rate': 16000}, 'text': 'więc czego chcecie odemnie spytałem wysłuchawszy tego zadziwiającego opowiadania broń nas stary człowieku broń zakrzyknęli równocześnie obaj posłowie\n', 'speaker_id': 10900, 'chapter_id': 6473, 'id': '10900_6473_000030'}
文件(file):文件名.flac格式。
音频(audio):包含音频文件名、解码后的音频数组和采样率的字典。请注意,当访问 audio 列时:dataset[0]["audio"],音频文件会自动解码并重采样为 dataset.features["audio"].sampling_rate。解码和重采样大量音频文件可能需要很长时间。因此,在访问 "audio" 列之前最好先查询样本索引,即 dataset[0]["audio"] 应始终优先于 dataset["audio"][0]。
文本(text):音频文件的转录内容。
id:数据样本的唯一ID。
speaker_id:说话人的唯一ID。同一个说话人ID可能对应多个数据样本。
chapter_id:包含转录内容的有声书章节的ID。
Train | Train.9h | Train.1h | Dev | Test | |
---|---|---|---|---|---|
german | 469942 | 2194 | 241 | 3469 | 3394 |
dutch | 374287 | 2153 | 234 | 3095 | 3075 |
french | 258213 | 2167 | 241 | 2416 | 2426 |
spanish | 220701 | 2110 | 233 | 2408 | 2385 |
italian | 59623 | 2173 | 240 | 1248 | 1262 |
portuguese | 37533 | 2116 | 236 | 826 | 871 |
polish | 25043 | 2173 | 238 | 512 | 520 |
[需要更多信息]
[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
该数据集包含在线捐赠其声音的人们。您同意不尝试确定数据集中说话者的身份。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
公共领域,知识共享署名4.0国际许可证 ( CC-BY-4.0 )
@article{Pratap2020MLSAL, title={MLS: A Large-Scale Multilingual Dataset for Speech Research}, author={Vineel Pratap and Qiantong Xu and Anuroop Sriram and Gabriel Synnaeve and Ronan Collobert}, journal={ArXiv}, year={2020}, volume={abs/2012.03411} }
感谢 @patrickvonplaten 和 @polinaeterna 添加了这个数据集。