数据集:
common_voice
任务:
自动语音识别计算机处理:
multilingual语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
extended|common_voice许可:
cc0-1.0弃用:数据集 "common_voice" 已经被弃用,将很快被删除。请改用 mozilla-foundation 组织下的数据集。例如,您可以通过 load_dataset("mozilla-foundation/common_voice_13_0", "en") 加载 Common Voice 13 数据集
Common Voice 数据集包括独特的 MP3 文件和相应的文本文件。数据集中的许多 9,283 个记录小时也包括年龄、性别和口音等人口统计元数据,这可以帮助训练语音识别引擎的准确性。
数据集当前包含 60 种语言的 7,335 个已验证小时数,但我们始终在添加更多的语音和语言。请查看我们的语言页面以请求语言或开始贡献。
[需要更多信息]
英语
一个典型的数据点包括音频文件的路径,称为 path,以及对应的句子。其他字段包括口音、年龄、client_id、up_votes、down_votes、gender、locale 和 segment。
{'accent': 'netherlands', 'age': 'fourties', 'client_id': 'bbbcb732e0f422150c30ff3654bbab572e2a617da107bca22ff8b89ab2e4f124d03b6a92c48322862f60bd0179ae07baf0f9b4f9c4e11d581e0cec70f703ba54', 'down_votes': 0, 'gender': 'male', 'locale': 'nl', 'path': 'nl/clips/common_voice_nl_23522441.mp3', 'segment': "''", 'sentence': 'Ik vind dat een dubieuze procedure.', 'up_votes': 2, 'audio': {'path': nl/clips/common_voice_nl_23522441.mp3', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 48000}`
client_id:表示记录的客户端(声音)的 id
path:音频文件的路径
audio:一个包含下载音频文件的路径、解码音频数组和采样率的字典。请注意,在访问 audio 列时:dataset[0]["audio"],音频文件会自动解码并重新采样为 dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,在"audio"列之前,首先查询样本索引非常重要,即优先选择 dataset[0]["audio"],而不是 dataset["audio"][0]。
sentence:用户要求发音的句子
up_votes:音频文件从评论者那里获得的赞数
down_votes:音频文件从评论者那里获得的踩数
age:说话者的年龄
gender:说话者的性别
accent:说话者的口音
locale:说话者的语言环境
segment:通常是空字段
语音材料已经分为 dev、train、test、validated、invalidated、reported 和其他部分。
验证数据是已经通过评审人员验证的数据,获得了数据质量较高的赞同票。
无效数据是评审人员无效化的数据,获得了数据质量较低的踩票。
报告的数据是因不同原因而被报告的数据。
其他数据是尚未经过审核的数据。
dev、test、train 都是经过审核、质量较高并分割为 dev、test 和 train 的数据。
[需要更多信息]
[需要更多信息]
谁是源语言的产生者?[需要更多信息]
[需要更多信息]
注释员是谁?[需要更多信息]
该数据集包含在线捐赠自己声音的人。您同意不试图确定 Common Voice 数据集中的说话者的身份。
该数据集包含在线捐赠自己声音的人。您同意不试图确定 Common Voice 数据集中的说话者的身份。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Public Domain, CC-0
@inproceedings{commonvoice:2020, author = {Ardila, R. and Branson, M. and Davis, K. and Henretty, M. and Kohler, M. and Meyer, J. and Morais, R. and Saunders, L. and Tyers, F. M. and Weber, G.}, title = {Common Voice: A Massively-Multilingual Speech Corpus}, booktitle = {Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020)}, pages = {4211--4215}, year = 2020 }
感谢 @BirgerMoell 添加此数据集。