数据集:
common_language
任务:
音频分类计算机处理:
multilingual大小:
100K<n<1M语言创建人:
crowdsourced批注创建人:
crowdsourced源数据集:
extended|common_voice许可:
cc-by-4.0该数据集由从CommonVoice数据库中精选出的语音记录组成。音频录音的总时长为45.1小时(即每种语言1小时的素材)。该数据集已从CommonVoice中提取出来以用于训练语言识别系统。
语言识别的基准模型可以在SpeechBrain工具包中找到(参见recipes/CommonLanguage): https://github.com/speechbrain/speechbrain
包含的语言列表:
Arabic, Basque, Breton, Catalan, Chinese_China, Chinese_Hongkong, Chinese_Taiwan, Chuvash, Czech, Dhivehi, Dutch, English, Esperanto, Estonian, French, Frisian, Georgian, German, Greek, Hakha_Chin, Indonesian, Interlingua, Italian, Japanese, Kabyle, Kinyarwanda, Kyrgyz, Latvian, Maltese, Mongolian, Persian, Polish, Portuguese, Romanian, Romansh_Sursilvan, Russian, Sakha, Slovenian, Spanish, Swedish, Tamil, Tatar, Turkish, Ukranian, Welsh
典型的数据点由音频文件的路径和其标签(语言)组成。其他字段包括年龄、客户端ID、性别和句子。
{ 'client_id': 'itln_trn_sp_175', 'path': '/path/common_voice_kpd/Italian/train/itln_trn_sp_175/common_voice_it_18279446.wav', 'audio': {'path': '/path/common_voice_kpd/Italian/train/itln_trn_sp_175/common_voice_it_18279446.wav', 'array': array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), 'sampling_rate': 48000}, 'sentence': 'Con gli studenti è leggermente simile.', 'age': 'not_defined', 'gender': 'not_defined', 'language': 22 }
client_id(字符串):哪个客户端(声音)进行了录音
path(字符串):音频文件的路径
语言(ClassLabel):录音的语言(请参见上面的语言部分)
句子(字符串):用户提示要说的句子
年龄(字符串):说话者的年龄。
性别(字符串):说话者的性别
数据集已经平衡,并拆分为训练、开发(验证)和测试集。
Name | Train | Dev | Test |
---|---|---|---|
# of utterances | 177552 | 47104 | 47704 |
# unique speakers | 11189 | 1297 | 1322 |
Total duration, hr | 30.04 | 7.53 | 7.53 |
Min duration, sec | 0.86 | 0.98 | 0.89 |
Mean duration, sec | 4.87 | 4.61 | 4.55 |
Max duration, sec | 21.72 | 105.67 | 29.83 |
Duration per language, min | ~40 | ~10 | ~10 |
该数据集包含在线捐赠声音的人。您同意不尝试确定Common Voice数据集中说话者的身份。
该数据集包含在线捐赠声音的人。您同意不尝试确定Common Voice数据集中说话者的身份。
在该版本的数据集中,蒙古语和乌克兰语的拼写为"Mangolian"和"Ukranian"。
Ganesh Sinisetty; Pavlo Ruban; Oleksandr Dymov; Mirco Ravanelli
Creative Commons Attribution 4.0 International
@dataset{ganesh_sinisetty_2021_5036977, author = {Ganesh Sinisetty and Pavlo Ruban and Oleksandr Dymov and Mirco Ravanelli}, title = {CommonLanguage}, month = jun, year = 2021, publisher = {Zenodo}, version = {0.1}, doi = {10.5281/zenodo.5036977}, url = {https://doi.org/10.5281/zenodo.5036977} }
感谢 @anton-l 添加了此数据集。