数据集:
MLCommons/peoples_speech
今天,People's Speech 数据集是世界上最大的英语语音识别语料库之一,根据 CC-BY-SA 和 CC-BY 4.0 许可证用于学术和商业用途。它包含30,000+小时的英语语言转录语音,具有多样化的演讲者。该开放数据集足够大,可以用于训练语音转文本系统,最重要的是它具有宽松的许可证。
[需要更多信息]
英语
{ "id": "gov_DOT_uscourts_DOT_scotus_DOT_19-161/gov_DOT_uscourts_DOT_scotus_DOT_19-161_DOT_2020-03-02_DOT_mp3_00002.flac", "audio": { "path": "gov_DOT_uscourts_DOT_scotus_DOT_19-161/gov_DOT_uscourts_DOT_scotus_DOT_19-161_DOT_2020-03-02_DOT_mp3_00002.flac" "array": array([-6.10351562e-05, ...]), "sampling_rate": 16000 } "duration_ms": 14490, "text": "主张停止条款要求[...]"}
{ "id": datasets.Value("string"), "audio": datasets.Audio(sampling_rate=16_000), "duration_ms": datasets.Value("int32"), "text": datasets.Value("string"),}
我们为数据集提供以下配置: cc-by-clean,cc-by-dirty,cc-by-sa-clean,cc-by-sa-dirty和microset。我们不为任何配置提供拆分。
详见我们的 paper 。
数据通过archive.org API下载。没有进行数据推理。
谁是源语言制作者?[需要更多信息]
没有进行手动标注。我们仅下载带有现有转录的源音频。
谁是注释者?对于测试和验证集,我们付费给美式英语的本地人做转录。我们不知道训练集中的转录人员的身份。对于训练集,我们注意到一些转录很可能是自动语音识别系统的输出。
我们的一些来源是法律和政府程序、口述历史、演讲等。鉴于这些文件的目的是公开的并且被授权为这样,涉及到的人员自然是知晓的。
数据集可用于语音合成。但是,这需要仔细清理数据集,因为对于语音合成来说背景噪音是不可接受的。
数据集还可用于关键词检测任务。特别是对于数据集中的非英语音频来说,这是一个很好的应用案例。
我们真诚希望我们的数据集涵盖的广泛来源可以减少当前存在的服务质量问题,例如语音识别系统对非母语英语口音的理解较差。我们目前无法想到使用该数据集可能引起的任何不公平待遇。
我们的数据是从archive.org下载的。因此,数据存在偏向于用户上传的内容。
我们的数据几乎都是美式口音的英语。
在1.0版本中,训练集、测试集和验证集中的一部分数据对齐不好。具体而言,有些单词出现在转录中,但不出现在音频中,或者有些单词出现在音频中,但不出现在转录中。我们正在处理这个问题。
[需要更多信息]
我们提供CC-BY和CC-BY-SA的数据集子集。
请引用:
@article{DBLP:journals/corr/abs-2111-09344, author = {Daniel Galvez and Greg Diamos and Juan Ciro and Juan Felipe Cer{\'{o}}n and Keith Achorn and Anjali Gopi and David Kanter and Maximilian Lam and Mark Mazumder and Vijay Janapa Reddi}, title = {The People's Speech: {A} Large-Scale Diverse English Speech Recognition Dataset for Commercial Usage}, journal = {CoRR}, volume = {abs/2111.09344}, year = {2021}, url = {https://arxiv.org/abs/2111.09344}, eprinttype = {arXiv}, eprint = {2111.09344}, timestamp = {Mon, 22 Nov 2021 16:44:07 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2111-09344.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }