数据集:

anton-l/common_language

计算机处理:

multilingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

crowdsourced
英文

common_language 数据集卡片

数据集摘要

该数据集由精心筛选自 CommonVoice 数据库的语音录音组成。音频记录的总时长为45.1小时(即每种语言1小时的材料)。数据集已从 CommonVoice 中提取,用于训练语言识别系统。

支持的任务和排行榜

语言识别的基准可在 SpeechBrain 工具包中找到(参见recipes/CommonLanguage): https://github.com/speechbrain/speechbrain

语言

包含的语言列表:

Arabic, Basque, Breton, Catalan, Chinese_China, Chinese_Hongkong, Chinese_Taiwan, Chuvash, Czech, Dhivehi, Dutch, English, Esperanto, Estonian, French, Frisian, Georgian, German, Greek, Hakha_Chin, Indonesian, Interlingua, Italian, Japanese, Kabyle, Kinyarwanda, Kyrgyz, Latvian, Maltese, Mongolian, Persian, Polish, Portuguese, Romanian, Romansh_Sursilvan, Russian, Sakha, Slovenian, Spanish, Swedish, Tamil, Tatar, Turkish, Ukranian, Welsh

数据集结构

数据示例

典型的数据点包括音频文件的路径和其标签语言。附加字段包括年龄、客户端ID、性别和句子。

{
  'client_id': 'itln_trn_sp_175',
  'path': '/path/common_voice_kpd/Italian/train/itln_trn_sp_175/common_voice_it_18279446.wav',
  'sentence': 'Con gli studenti è leggermente simile.',
  'age': 'not_defined',
  'gender': 'not_defined',
  'language': 22
}

数据字段

client_id(string):录制音频的客户端(声音)的标识符

path(string):音频文件的路径

language(ClassLabel):录音的语言(参见上面的语言部分)

sentence(string):提示用户说的句子

age(string):说话人的年龄。

gender(string):说话人的性别

数据拆分

数据集已经平衡,并划分为训练集、验证集和测试集。

Name Train Dev Test
# of utterances 177552 47104 47704
# unique speakers 11189 1297 1322
Total duration, hr 30.04 7.53 7.53
Min duration, sec 0.86 0.98 0.89
Mean duration, sec 4.87 4.61 4.55
Max duration, sec 21.72 105.67 29.83
Duration per language, min ~40 ~10 ~10

数据集创建

策划原理

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

源语言产生者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

该数据集包含自愿在网上捐赠自己的声音的人们。您同意不试图确定 Common Voice 数据集中发言者的身份。

使用数据的注意事项

数据的社会影响

该数据集包含自愿在网上捐赠自己的声音的人们。您同意不试图确定 Common Voice 数据集中发言者的身份。

偏见讨论

More Information Needed

其他已知限制

在该数据集的此版本中,蒙古语和乌克兰语的拼写为"Mangolian"和"Ukranian"。

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@dataset{ganesh_sinisetty_2021_5036977,
  author       = {Ganesh Sinisetty and
                  Pavlo Ruban and
                  Oleksandr Dymov and
                  Mirco Ravanelli},
  title        = {CommonLanguage},
  month        = jun,
  year         = 2021,
  publisher    = {Zenodo},
  version      = {0.1},
  doi          = {10.5281/zenodo.5036977},
  url          = {https://doi.org/10.5281/zenodo.5036977}
}

贡献

感谢 @anton-l 添加此数据集。