数据集:
anton-l/common_language
计算机处理:
multilingual大小:
100K<n<1M语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
extended|common_voice许可:
cc-by-nc-4.0该数据集由精心筛选自 CommonVoice 数据库的语音录音组成。音频记录的总时长为45.1小时(即每种语言1小时的材料)。数据集已从 CommonVoice 中提取,用于训练语言识别系统。
语言识别的基准可在 SpeechBrain 工具包中找到(参见recipes/CommonLanguage): https://github.com/speechbrain/speechbrain
包含的语言列表:
Arabic, Basque, Breton, Catalan, Chinese_China, Chinese_Hongkong, Chinese_Taiwan, Chuvash, Czech, Dhivehi, Dutch, English, Esperanto, Estonian, French, Frisian, Georgian, German, Greek, Hakha_Chin, Indonesian, Interlingua, Italian, Japanese, Kabyle, Kinyarwanda, Kyrgyz, Latvian, Maltese, Mongolian, Persian, Polish, Portuguese, Romanian, Romansh_Sursilvan, Russian, Sakha, Slovenian, Spanish, Swedish, Tamil, Tatar, Turkish, Ukranian, Welsh
典型的数据点包括音频文件的路径和其标签语言。附加字段包括年龄、客户端ID、性别和句子。
{ 'client_id': 'itln_trn_sp_175', 'path': '/path/common_voice_kpd/Italian/train/itln_trn_sp_175/common_voice_it_18279446.wav', 'sentence': 'Con gli studenti è leggermente simile.', 'age': 'not_defined', 'gender': 'not_defined', 'language': 22 }
client_id(string):录制音频的客户端(声音)的标识符
path(string):音频文件的路径
language(ClassLabel):录音的语言(参见上面的语言部分)
sentence(string):提示用户说的句子
age(string):说话人的年龄。
gender(string):说话人的性别
数据集已经平衡,并划分为训练集、验证集和测试集。
Name | Train | Dev | Test |
---|---|---|---|
# of utterances | 177552 | 47104 | 47704 |
# unique speakers | 11189 | 1297 | 1322 |
Total duration, hr | 30.04 | 7.53 | 7.53 |
Min duration, sec | 0.86 | 0.98 | 0.89 |
Mean duration, sec | 4.87 | 4.61 | 4.55 |
Max duration, sec | 21.72 | 105.67 | 29.83 |
Duration per language, min | ~40 | ~10 | ~10 |
该数据集包含自愿在网上捐赠自己的声音的人们。您同意不试图确定 Common Voice 数据集中发言者的身份。
该数据集包含自愿在网上捐赠自己的声音的人们。您同意不试图确定 Common Voice 数据集中发言者的身份。
在该数据集的此版本中,蒙古语和乌克兰语的拼写为"Mangolian"和"Ukranian"。
@dataset{ganesh_sinisetty_2021_5036977, author = {Ganesh Sinisetty and Pavlo Ruban and Oleksandr Dymov and Mirco Ravanelli}, title = {CommonLanguage}, month = jun, year = 2021, publisher = {Zenodo}, version = {0.1}, doi = {10.5281/zenodo.5036977}, url = {https://doi.org/10.5281/zenodo.5036977} }
感谢 @anton-l 添加此数据集。