英文

People's Speech 数据集卡片

数据集摘要

今天,People's Speech 数据集是世界上最大的英语语音识别语料库之一,根据 CC-BY-SA 和 CC-BY 4.0 许可证用于学术和商业用途。它包含30,000+小时的英语语言转录语音,具有多样化的演讲者。该开放数据集足够大,可以用于训练语音转文本系统,最重要的是它具有宽松的许可证。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据实例

{ "id": "gov_DOT_uscourts_DOT_scotus_DOT_19-161/gov_DOT_uscourts_DOT_scotus_DOT_19-161_DOT_2020-03-02_DOT_mp3_00002.flac", "audio": { "path": "gov_DOT_uscourts_DOT_scotus_DOT_19-161/gov_DOT_uscourts_DOT_scotus_DOT_19-161_DOT_2020-03-02_DOT_mp3_00002.flac" "array": array([-6.10351562e-05, ...]), "sampling_rate": 16000 } "duration_ms": 14490, "text": "主张停止条款要求[...]"}

数据字段

{ "id": datasets.Value("string"), "audio": datasets.Audio(sampling_rate=16_000), "duration_ms": datasets.Value("int32"), "text": datasets.Value("string"),}

数据拆分

我们为数据集提供以下配置: cc-by-clean,cc-by-dirty,cc-by-sa-clean,cc-by-sa-dirty和microset。我们不为任何配置提供拆分。

数据集创建

策划原因

详见我们的 paper

源数据

初始数据收集和规范化

数据通过archive.org API下载。没有进行数据推理。

谁是源语言制作者?

[需要更多信息]

注释

注释过程

没有进行手动标注。我们仅下载带有现有转录的源音频。

谁是注释者?

对于测试和验证集,我们付费给美式英语的本地人做转录。我们不知道训练集中的转录人员的身份。对于训练集,我们注意到一些转录很可能是自动语音识别系统的输出。

私人和敏感信息

我们的一些来源是法律和政府程序、口述历史、演讲等。鉴于这些文件的目的是公开的并且被授权为这样,涉及到的人员自然是知晓的。

使用数据的注意事项

数据对社会的影响

数据集可用于语音合成。但是,这需要仔细清理数据集,因为对于语音合成来说背景噪音是不可接受的。

数据集还可用于关键词检测任务。特别是对于数据集中的非英语音频来说,这是一个很好的应用案例。

我们真诚希望我们的数据集涵盖的广泛来源可以减少当前存在的服务质量问题,例如语音识别系统对非母语英语口音的理解较差。我们目前无法想到使用该数据集可能引起的任何不公平待遇。

偏见讨论

我们的数据是从archive.org下载的。因此,数据存在偏向于用户上传的内容。

我们的数据几乎都是美式口音的英语。

其他已知限制

在1.0版本中,训练集、测试集和验证集中的一部分数据对齐不好。具体而言,有些单词出现在转录中,但不出现在音频中,或者有些单词出现在音频中,但不出现在转录中。我们正在处理这个问题。

其他信息

数据集策划者

[需要更多信息]

许可信息

我们提供CC-BY和CC-BY-SA的数据集子集。

引用信息

请引用:

@article{DBLP:journals/corr/abs-2111-09344,
  author    = {Daniel Galvez and
               Greg Diamos and
               Juan Ciro and
               Juan Felipe Cer{\'{o}}n and
               Keith Achorn and
               Anjali Gopi and
               David Kanter and
               Maximilian Lam and
               Mark Mazumder and
               Vijay Janapa Reddi},
  title     = {The People's Speech: {A} Large-Scale Diverse English Speech Recognition
               Dataset for Commercial Usage},
  journal   = {CoRR},
  volume    = {abs/2111.09344},
  year      = {2021},
  url       = {https://arxiv.org/abs/2111.09344},
  eprinttype = {arXiv},
  eprint    = {2111.09344},
  timestamp = {Mon, 22 Nov 2021 16:44:07 +0100},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2111-09344.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}