数据集:
collectivat/tv3_parla
子任务:
language-modeling语言:
ca计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original许可:
cc-by-nc-4.0该语料库包含来自广播材料的240小时的加泰罗尼亚语音。关于分割、数据处理和模型训练的细节在 Külebi, Öktem; 2018 中有详细说明。内容归Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)所有;我们处理了他们的材料,并根据他们的使用条款提供。
这个项目得到了Softcatalà协会的支持。
该数据集可用于以下任务:
该数据集是加泰罗尼亚语(ca)。
{ 'path': 'tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav', 'audio': {'path': 'tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav', 'array': array([-0.01168823, 0.01229858, 0.02819824, ..., 0.015625 , 0.01525879, 0.0145874 ]), 'sampling_rate': 16000}, 'text': 'algunes montoneres que que et feien anar ben col·locat i el vent també hi jugava una mica de paper bufava vent de cantó alguns cops o de cul i el pelotón el vent el porta molt malament hi havia molts nervis' }
该数据集分为"训练"和"测试"两部分。
train | test | |
---|---|---|
Number of examples | 159242 | 2220 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Creative Commons Attribution-NonCommercial 4.0 International .
@inproceedings{kulebi18_iberspeech, author={Baybars Külebi and Alp Öktem}, title={{Building an Open Source Automatic Speech Recognition System for Catalan}}, year=2018, booktitle={Proc. IberSPEECH 2018}, pages={25--29}, doi={10.21437/IberSPEECH.2018-6} }
感谢 @albertvillanova 添加了该数据集。