数据集:
multilingual_librispeech
计算机处理:
multilingual大小:
100K<n<1M批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2012.03411许可:
cc-by-4.0废弃:该旧版本数据集不支持流式处理,且不再更新。请使用 "facebook/multilingual_librispeech" 替代。
Multilingual LibriSpeech (MLS) 数据集是一个适用于语音研究的大型多语种语音语料库。该数据集派生自 LibriVox 的朗读有声书,包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语共 8 种语言。
该数据集派生自 LibriVox 的朗读有声书,包括英语、德语、荷兰语、西班牙语、法语、意大利语、葡萄牙语和波兰语共 8 种语言。
典型的数据点包括音频文件的路径,通常称为 "file",以及转录文本,称为 "text"。还提供有关说话人和包含转录的段落的其他信息。
{'chapter_id': 141231, 'file': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac', 'audio': {'path': '/home/patrick/.cache/huggingface/datasets/downloads/extracted/b7ded9969e09942ab65313e691e6fc2e12066192ee8527e21d634aca128afbe2/dev_clean/1272/141231/1272-141231-0000.flac', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 16000}, 'id': '1272-141231-0000', 'speaker_id': 1272, 'text': 'A MAN SAID TO THE UNIVERSE SIR I EXIST'}
file: 下载的音频文件的路径,格式为 .flac。
audio: 包含下载的音频文件路径、解码后的音频数组和采样率的字典。注意,访问音频列时,dataset[0]["audio"] 会自动解码和重新采样为 dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要大量时间。因此,在访问 "audio" 列之前,首先查询样本索引是非常重要的,即 dataset[0]["audio"] 应始终优先于 dataset["audio"][0]。
text: 音频文件的转录文本。
id: 数据样本的唯一标识符。
speaker_id: 说话人的唯一标识符。同一说话人的标识符可能出现在多个数据样本中。
chapter_id: 包含转录的有声书章节的标识符。
Train | Train.9h | Train.1h | Dev | Test | |
---|---|---|---|---|---|
german | 469942 | 2194 | 241 | 3469 | 3394 |
dutch | 374287 | 2153 | 234 | 3095 | 3075 |
french | 258213 | 2167 | 241 | 2416 | 2426 |
spanish | 220701 | 2110 | 233 | 2408 | 2385 |
italian | 59623 | 2173 | 240 | 1248 | 1262 |
portuguese | 37533 | 2116 | 236 | 826 | 871 |
polish | 25043 | 2173 | 238 | 512 | 520 |
[需要更多信息]
[需要更多信息]
语言数据的原始产生者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
该数据集包含在线捐赠他们的声音的人。您同意不试图确定数据集中说话者的身份。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
公有领域,创作共用署名4.0国际公共许可证 ( CC-BY-4.0 )
@article{Pratap2020MLSAL, title={MLS: A Large-Scale Multilingual Dataset for Speech Research}, author={Vineel Pratap and Qiantong Xu and Anuroop Sriram and Gabriel Synnaeve and Ronan Collobert}, journal={ArXiv}, year={2020}, volume={abs/2012.03411} }
感谢 @patrickvonplaten 添加了该数据集。