数据集:

common_language

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

crowdsourced

许可:

cc-by-4.0
英文

common_language 的数据集卡片

数据集摘要

该数据集由从CommonVoice数据库中精选出的语音记录组成。音频录音的总时长为45.1小时(即每种语言1小时的素材)。该数据集已从CommonVoice中提取出来以用于训练语言识别系统。

支持的任务和排行榜

语言识别的基准模型可以在SpeechBrain工具包中找到(参见recipes/CommonLanguage): https://github.com/speechbrain/speechbrain

语言

包含的语言列表:

Arabic, Basque, Breton, Catalan, Chinese_China, Chinese_Hongkong, Chinese_Taiwan, Chuvash, Czech, Dhivehi, Dutch, English, Esperanto, Estonian, French, Frisian, Georgian, German, Greek, Hakha_Chin, Indonesian, Interlingua, Italian, Japanese, Kabyle, Kinyarwanda, Kyrgyz, Latvian, Maltese, Mongolian, Persian, Polish, Portuguese, Romanian, Romansh_Sursilvan, Russian, Sakha, Slovenian, Spanish, Swedish, Tamil, Tatar, Turkish, Ukranian, Welsh

数据集结构

数据实例

典型的数据点由音频文件的路径和其标签(语言)组成。其他字段包括年龄、客户端ID、性别和句子。

{
  'client_id': 'itln_trn_sp_175',
  'path': '/path/common_voice_kpd/Italian/train/itln_trn_sp_175/common_voice_it_18279446.wav',
  'audio': {'path': '/path/common_voice_kpd/Italian/train/itln_trn_sp_175/common_voice_it_18279446.wav',
           'array': array([-0.00048828, -0.00018311, -0.00137329, ...,  0.00079346, 0.00091553,  0.00085449], dtype=float32),
           'sampling_rate': 48000},
  'sentence': 'Con gli studenti è leggermente simile.',
  'age': 'not_defined',
  'gender': 'not_defined',
  'language': 22
}

数据字段

client_id(字符串):哪个客户端(声音)进行了录音

path(字符串):音频文件的路径

  • 音频(字典):包含下载的音频文件路径、解码后的音频数组和采样率的字典。注意,当访问音频列时:dataset[0]["audio"]会自动解码并重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要相当长的时间。因此,在在"audio"列之前首先查询样本索引非常重要,即dataset[0]["audio"]始终优先于dataset["audio"][0]。

语言(ClassLabel):录音的语言(请参见上面的语言部分)

句子(字符串):用户提示要说的句子

年龄(字符串):说话者的年龄。

性别(字符串):说话者的性别

数据拆分

数据集已经平衡,并拆分为训练、开发(验证)和测试集。

Name Train Dev Test
# of utterances 177552 47104 47704
# unique speakers 11189 1297 1322
Total duration, hr 30.04 7.53 7.53
Min duration, sec 0.86 0.98 0.89
Mean duration, sec 4.87 4.61 4.55
Max duration, sec 21.72 105.67 29.83
Duration per language, min ~40 ~10 ~10

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言的制作人?

More Information Needed

注释

注释过程

More Information Needed

谁是标注者?

More Information Needed

个人和敏感信息

该数据集包含在线捐赠声音的人。您同意不尝试确定Common Voice数据集中说话者的身份。

使用数据的注意事项

数据的社会影响

该数据集包含在线捐赠声音的人。您同意不尝试确定Common Voice数据集中说话者的身份。

偏见讨论

More Information Needed

其他已知限制

在该版本的数据集中,蒙古语和乌克兰语的拼写为"Mangolian"和"Ukranian"。

More Information Needed

其他信息

数据集策划者

Ganesh Sinisetty; Pavlo Ruban; Oleksandr Dymov; Mirco Ravanelli

许可信息

Creative Commons Attribution 4.0 International

引用信息

@dataset{ganesh_sinisetty_2021_5036977,
  author       = {Ganesh Sinisetty and
                  Pavlo Ruban and
                  Oleksandr Dymov and
                  Mirco Ravanelli},
  title        = {CommonLanguage},
  month        = jun,
  year         = 2021,
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5036977},
  url          = {https://doi.org/10.5281/zenodo.5036977}
}

贡献

感谢 @anton-l 添加了此数据集。