数据集:
facebook/voxpopuli
VoxPopuli 是一个用于表示学习、半监督学习和解释的大规模多语言语音语料库。原始数据收集于2009年至2020年,包括 European Parliament event recordings 条语音数据。我们感谢欧洲议会创建并分享这些材料。该实现包含18种语言的转录语音数据。此外,还包含29小时的非英语为母语者的转录语音数据,用于重音语音(15种L2重音)的ASR研究。
VoxPopuli 包含18种语言的标记数据。要加载特定语言,请将其名称作为配置名称传递:
from datasets import load_dataset voxpopuli_croatian = load_dataset("facebook/voxpopuli", "hr")
要在单个数据集中加载所有语言,请使用 "multilang" 配置名称:
voxpopuli_all = load_dataset("facebook/voxpopuli", "multilang")
要加载特定语言集,请使用 "multilang" 配置名称并将所需语言的列表传递给 languages 参数:
voxpopuli_slavic = load_dataset("facebook/voxpopuli", "multilang", languages=["hr", "sk", "sl", "cs", "pl"])
要加载重音英语数据,请使用 "en_accented" 配置名称:
voxpopuli_accented = load_dataset("facebook/voxpopuli", "en_accented")
请注意,L2英语子集仅包含测试集。
重音英语子集还可用于关于重音语音的ASR研究(15种L2重音)。
VoxPopuli 包含18种语言的标记(转录)数据:
Language | Code | Transcribed Hours | Transcribed Speakers | Transcribed Tokens |
---|---|---|---|---|
English | En | 543 | 1313 | 4.8M |
German | De | 282 | 531 | 2.3M |
French | Fr | 211 | 534 | 2.1M |
Spanish | Es | 166 | 305 | 1.6M |
Polish | Pl | 111 | 282 | 802K |
Italian | It | 91 | 306 | 757K |
Romanian | Ro | 89 | 164 | 739K |
Hungarian | Hu | 63 | 143 | 431K |
Czech | Cs | 62 | 138 | 461K |
Dutch | Nl | 53 | 221 | 488K |
Finnish | Fi | 27 | 84 | 160K |
Croatian | Hr | 43 | 83 | 337K |
Slovak | Sk | 35 | 96 | 270K |
Slovene | Sl | 10 | 45 | 76K |
Estonian | Et | 3 | 29 | 18K |
Lithuanian | Lt | 2 | 21 | 10K |
Total | 1791 | 4295 | 15M |
重音语音转录数据有15种不同的L2重音:
Accent | Code | Transcribed Hours | Transcribed Speakers |
---|---|---|---|
Dutch | en_nl | 3.52 | 45 |
German | en_de | 3.52 | 84 |
Czech | en_cs | 3.30 | 26 |
Polish | en_pl | 3.23 | 33 |
French | en_fr | 2.56 | 27 |
Hungarian | en_hu | 2.33 | 23 |
Finnish | en_fi | 2.18 | 20 |
Romanian | en_ro | 1.85 | 27 |
Slovak | en_sk | 1.46 | 17 |
Spanish | en_es | 1.42 | 18 |
Italian | en_it | 1.11 | 15 |
Estonian | en_et | 1.08 | 6 |
Lithuanian | en_lt | 0.65 | 7 |
Croatian | en_hr | 0.42 | 9 |
Slovene | en_sl | 0.25 | 7 |
{ 'audio_id': '20180206-0900-PLENARY-15-hr_20180206-16:10:06_5', 'language': 11, # "hr" 'audio': { 'path': '/home/polina/.cache/huggingface/datasets/downloads/extracted/44aedc80bb053f67f957a5f68e23509e9b181cc9e30c8030f110daaedf9c510e/train_part_0/20180206-0900-PLENARY-15-hr_20180206-16:10:06_5.wav', 'array': array([-0.01434326, -0.01055908, 0.00106812, ..., 0.00646973], dtype=float32), 'sampling_rate': 16000 }, 'raw_text': '', 'normalized_text': 'poast genitalnog sakaenja ena u europi tek je jedna od manifestacija takve tetne politike.', 'gender': 'female', 'speaker_id': '119431', 'is_gold_transcript': True, 'accent': 'None' }
除了重音的英语(en_accented)配置,所有配置(语言)都包含三个拆分:训练集、验证集和测试集。重音的英语(en_accented)配置只包含测试集。
[需要更多信息]
原始数据收集于2009年至2020年,共 European Parliament event recordings 条数据。
初始数据收集和标准化VoxPopuli 的转录集来自将完整的事件源语音音频与全体会议记录的转录相对齐。用于定位完整会话中的演讲者的官方时间戳可用,但常常不准确,导致演讲被截断或混合了前面或后面演讲的片段。为了校准原始的时间戳,我们使用 pyannote.audio (Bredin et al.2020) 对整个会话的音频进行说话者语音分离(SD),并使用离原始时间戳最近的SD时间戳(通过L1距离)进行分割。通过说话者对完整的会话音频进行分段,每段都有可用的转录。
这些演讲段的平均持续时间为197秒,这导致了显着的问题。因此,我们将这些段落进一步分割为最长持续时间为20秒的话语片段。我们利用语音识别(ASR)系统将语音段落与给定的转录进行强制对齐。ASR系统是使用内部匿名视频数据的音频进行训练的TDS模型(Hannun et al。,2019),采用ASG标准(Collobert et al。,2016)。
由于原始转录不完整或ASR强制对齐不准确,所得到的话语片段可能会有错误的转录。我们使用相同ASR系统的预测结果作为参考,并通过最大字符错误率(CER)的阈值进行候选片段的过滤,最大阈值为20%。
资源语言的生产者是谁?演讲者是欧洲议会活动的参与者,其中许多人是欧盟官员。
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
说话者的性别分布不平衡,大部分语言的女性说话者比例大多低于50%,立陶宛语的数据最低,仅为15%。
VoxPopuli 包括2009年至2020年欧洲议会活动中的所有可用演讲,没有对主题或演讲者进行任何选择。演讲内容代表了欧洲议会事件中演讲者的立场,其中许多人是欧盟官员。
[需要更多信息]
该数据集遵循CC0许可协议,请参阅 European Parliament's legal notice 获取原始数据。
请引用本文:
@inproceedings{wang-etal-2021-voxpopuli, title = "{V}ox{P}opuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation", author = "Wang, Changhan and Riviere, Morgane and Lee, Ann and Wu, Anne and Talnikar, Chaitanya and Haziza, Daniel and Williamson, Mary and Pino, Juan and Dupoux, Emmanuel", booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.acl-long.80", pages = "993--1003", }
感谢 @polinaeterna 添加此数据集。