这是由Col·lectivaT准备的巴塞罗那议会(Parlament de Catalunya)加泰隆尼亚语演讲语料库。音频片段来自2007/07/11至2018/07/17期间的加泰隆尼亚议会全体会议录音。我们将录音与转录内容进行对齐,并提取了该语料库。内容属于加泰隆尼亚议会,并且数据的发布符合他们的使用条款。
这个语料库的准备部分得到了加泰隆尼亚自治政府文化部的支持,并且v2.0得到了巴塞罗那超级计算中心(Barcelona Supercomputing Center)的支持,该支持是在加泰隆尼亚自治政府维斯普里西和数字政策部(Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya)的Projecte AINA框架下进行的。
从v2.0开始,该语料库被分为211小时的干净音频和400小时的其他音质音频。此外,每个讲话片段都带有其发言人标签,每个发言人都有其性别标签。统计数据在自述文件中详细说明。
该数据集可用于以下任务:
该数据集为加泰隆尼亚语(ca-CA)。
{ 'path': 'clean_train/c/c/ccca4790a55aba3e6bcf_63.88_74.06.wav' 'audio': { 'path': 'clean_train/c/c/ccca4790a55aba3e6bcf_63.88_74.06.wav', 'array': array([-6.10351562e-05, -6.10351562e-05, -1.22070312e-04, ..., -1.22070312e-04, 0.00000000e+00, -3.05175781e-05]), 'sampling_rate': 16000 }, 'speaker_id': 167, 'sentence': "alguns d'ells avui aquí presents un agraïment a aquells que mantenen viva la memòria aquest acte de reparació i dignitat és", 'gender': 0, 'duration': 10.18 }
该数据集被分为"train"、"validation"和"test"三个部分。
该数据集是通过对议会会议记录和视听内容进行对齐创建的。更详细的信息请参阅 paper 。
我们创建了这个语料库,以促进加泰隆尼亚语(一种资源匮乏的语言)语言模型的发展。
音频片段来自2007/07/11至2018/07/17期间的加泰隆尼亚议会全体会议录音。清理程序在存档的存储库 Long Audio Aligner 中。
谁是源语言的制作者?2007/07/11至2018/07/17期间的议会成员。
该数据集未经注释。
注释过程[不适用]
注释者是谁?[不适用]
初始内容是公开可用的,此外,议会成员的身份是匿名的。
我们希望该语料库能为加泰隆尼亚语(一种资源匮乏的语言)语言模型的发展做出贡献。
该数据集存在性别偏见,但由于发言者根据性别进行标记,因此可以创建一个平衡的子语料库。
Subcorpus | Gender | Duration (h) |
---|---|---|
other_test | F | 2.516 |
other_dev | F | 2.701 |
other_train | F | 109.68 |
other_test | M | 2.631 |
other_dev | M | 2.513 |
other_train | M | 280.196 |
other total | 400.239 | |
clean_test | F | 2.707 |
clean_dev | F | 2.576 |
clean_train | F | 77.905 |
clean_test | M | 2.516 |
clean_dev | M | 2.614 |
clean_train | M | 123.162 |
clean total | 211.48 | |
Total | 611.719 |
文本语料库属于加泰隆尼亚政治领域。
巴塞罗那超级计算中心( bsc-temu@bsc.es )的文本挖掘单元(TeMU)
这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架下的资助完成。
Creative Commons Attribution 4.0 International .
@dataset{kulebi_baybars_2021_5541827, author = {Külebi, Baybars}, title = {{ParlamentParla - Speech corpus of Catalan Parliamentary sessions}}, month = oct, year = 2021, publisher = {Zenodo}, version = {v2.0}, doi = {10.5281/zenodo.5541827}, url = {https://doi.org/10.5281/zenodo.5541827} }提示:对于该论文:
@inproceedings{kulebi2022parlamentparla, title={ParlamentParla: A Speech Corpus of Catalan Parliamentary Sessions}, author={K{\"u}lebi, Baybars and Armentano-Oller, Carme and Rodr{\'\i}guez-Penagos, Carlos and Villegas, Marta}, booktitle={Workshop on Creating, Enriching and Using Parliamentary Corpora}, volume={125}, number={130}, pages={125}, year={2022} }
感谢 @albertvillanova 提供这个数据集。