数据集:

facebook/voxpopuli

英文

Voxpopuli 数据集卡片

数据集摘要

VoxPopuli 是一个用于表示学习、半监督学习和解释的大规模多语言语音语料库。原始数据收集于2009年至2020年,包括 European Parliament event recordings 条语音数据。我们感谢欧洲议会创建并分享这些材料。该实现包含18种语言的转录语音数据。此外,还包含29小时的非英语为母语者的转录语音数据,用于重音语音(15种L2重音)的ASR研究。

示例用途

VoxPopuli 包含18种语言的标记数据。要加载特定语言,请将其名称作为配置名称传递:

from datasets import load_dataset

voxpopuli_croatian = load_dataset("facebook/voxpopuli", "hr")

要在单个数据集中加载所有语言,请使用 "multilang" 配置名称:

voxpopuli_all = load_dataset("facebook/voxpopuli", "multilang")

要加载特定语言集,请使用 "multilang" 配置名称并将所需语言的列表传递给 languages 参数:

voxpopuli_slavic = load_dataset("facebook/voxpopuli", "multilang", languages=["hr", "sk", "sl", "cs", "pl"])

要加载重音英语数据,请使用 "en_accented" 配置名称:

voxpopuli_accented = load_dataset("facebook/voxpopuli", "en_accented")

请注意,L2英语子集仅包含测试集。

支持的任务和排行榜

  • 自动语音识别:该数据集可用于为自动语音识别(ASR)训练模型。模型接收音频文件并被要求将音频文件转录成书面文本。最常用的评估指标是词错误率(WER)。

重音英语子集还可用于关于重音语音的ASR研究(15种L2重音)。

语言

VoxPopuli 包含18种语言的标记(转录)数据:

Language Code Transcribed Hours Transcribed Speakers Transcribed Tokens
English En 543 1313 4.8M
German De 282 531 2.3M
French Fr 211 534 2.1M
Spanish Es 166 305 1.6M
Polish Pl 111 282 802K
Italian It 91 306 757K
Romanian Ro 89 164 739K
Hungarian Hu 63 143 431K
Czech Cs 62 138 461K
Dutch Nl 53 221 488K
Finnish Fi 27 84 160K
Croatian Hr 43 83 337K
Slovak Sk 35 96 270K
Slovene Sl 10 45 76K
Estonian Et 3 29 18K
Lithuanian Lt 2 21 10K
Total 1791 4295 15M

重音语音转录数据有15种不同的L2重音:

Accent Code Transcribed Hours Transcribed Speakers
Dutch en_nl 3.52 45
German en_de 3.52 84
Czech en_cs 3.30 26
Polish en_pl 3.23 33
French en_fr 2.56 27
Hungarian en_hu 2.33 23
Finnish en_fi 2.18 20
Romanian en_ro 1.85 27
Slovak en_sk 1.46 17
Spanish en_es 1.42 18
Italian en_it 1.11 15
Estonian en_et 1.08 6
Lithuanian en_lt 0.65 7
Croatian en_hr 0.42 9
Slovene en_sl 0.25 7

数据集结构

数据实例

{
  'audio_id': '20180206-0900-PLENARY-15-hr_20180206-16:10:06_5',
  'language': 11,  # "hr"
  'audio': {
    'path': '/home/polina/.cache/huggingface/datasets/downloads/extracted/44aedc80bb053f67f957a5f68e23509e9b181cc9e30c8030f110daaedf9c510e/train_part_0/20180206-0900-PLENARY-15-hr_20180206-16:10:06_5.wav',
    'array': array([-0.01434326, -0.01055908,  0.00106812, ...,  0.00646973], dtype=float32),
    'sampling_rate': 16000
  },
  'raw_text': '',
  'normalized_text': 'poast genitalnog sakaenja ena u europi tek je jedna od manifestacija takve tetne politike.',
  'gender': 'female',
  'speaker_id': '119431',
  'is_gold_transcript': True,
  'accent': 'None'
}

数据字段

  • audio_id(string)- 音频片段的ID
  • language(datasets.ClassLabel)- 音频片段的数值ID
  • audio(datasets.Audio)- 包含音频路径、解码的音频数组和采样率的字典。在非流式模式(默认)下,路径指向本地提取的音频。在流式模式下,路径是存档内音频的相对路径(因为文件不会被下载和提取到本地)。
  • raw_text(string)- 原始(音标)音频片段的文本
  • normalized_text(string)- 规范化的音频片段转录
  • gender(string)- 说话者的性别
  • speaker_id(string)- 说话者的ID
  • is_gold_transcript(bool)- 是否是黄金转录?
  • accent(string)- 重音类型,例如 "en_lt"(如果适用),否则为"None"。

数据拆分

除了重音的英语(en_accented)配置,所有配置(语言)都包含三个拆分:训练集、验证集和测试集。重音的英语(en_accented)配置只包含测试集。

数据集创建

策划理由

[需要更多信息]

原始数据

原始数据收集于2009年至2020年,共 European Parliament event recordings 条数据。

初始数据收集和标准化

VoxPopuli 的转录集来自将完整的事件源语音音频与全体会议记录的转录相对齐。用于定位完整会话中的演讲者的官方时间戳可用,但常常不准确,导致演讲被截断或混合了前面或后面演讲的片段。为了校准原始的时间戳,我们使用 pyannote.audio (Bredin et al.2020) 对整个会话的音频进行说话者语音分离(SD),并使用离原始时间戳最近的SD时间戳(通过L1距离)进行分割。通过说话者对完整的会话音频进行分段,每段都有可用的转录。

这些演讲段的平均持续时间为197秒,这导致了显着的问题。因此,我们将这些段落进一步分割为最长持续时间为20秒的话语片段。我们利用语音识别(ASR)系统将语音段落与给定的转录进行强制对齐。ASR系统是使用内部匿名视频数据的音频进行训练的TDS模型(Hannun et al。,2019),采用ASG标准(Collobert et al。,2016)。

由于原始转录不完整或ASR强制对齐不准确,所得到的话语片段可能会有错误的转录。我们使用相同ASR系统的预测结果作为参考,并通过最大字符错误率(CER)的阈值进行候选片段的过滤,最大阈值为20%。

资源语言的生产者是谁?

演讲者是欧洲议会活动的参与者,其中许多人是欧盟官员。

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

有关偏差的讨论

说话者的性别分布不平衡,大部分语言的女性说话者比例大多低于50%,立陶宛语的数据最低,仅为15%。

VoxPopuli 包括2009年至2020年欧洲议会活动中的所有可用演讲,没有对主题或演讲者进行任何选择。演讲内容代表了欧洲议会事件中演讲者的立场,其中许多人是欧盟官员。

其他已知限制

附加信息

数据集策划者

[需要更多信息]

许可信息

该数据集遵循CC0许可协议,请参阅 European Parliament's legal notice 获取原始数据。

引用信息

请引用本文:

@inproceedings{wang-etal-2021-voxpopuli,
    title = "{V}ox{P}opuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation",
    author = "Wang, Changhan  and
      Riviere, Morgane  and
      Lee, Ann  and
      Wu, Anne  and
      Talnikar, Chaitanya  and
      Haziza, Daniel  and
      Williamson, Mary  and
      Pino, Juan  and
      Dupoux, Emmanuel",
    booktitle = "Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.acl-long.80",
    pages = "993--1003",
}

贡献者

感谢 @polinaeterna 添加此数据集。