数据集:

projecte-aina/parlament_parla

任务:

自动语音识别

文本生成

子任务:

language-modeling speaker-identification

语言:

计算机处理:

monolingual

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

cc-by-4.0

数据集介绍文件清单

英文

ParlamentParla数据集卡片

数据集摘要

这是由Col·lectivaT准备的巴塞罗那议会（Parlament de Catalunya）加泰隆尼亚语演讲语料库。音频片段来自2007/07/11至2018/07/17期间的加泰隆尼亚议会全体会议录音。我们将录音与转录内容进行对齐，并提取了该语料库。内容属于加泰隆尼亚议会，并且数据的发布符合他们的使用条款。

这个语料库的准备部分得到了加泰隆尼亚自治政府文化部的支持，并且v2.0得到了巴塞罗那超级计算中心（Barcelona Supercomputing Center）的支持，该支持是在加泰隆尼亚自治政府维斯普里西和数字政策部（Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya）的Projecte AINA框架下进行的。

从v2.0开始，该语料库被分为211小时的干净音频和400小时的其他音质音频。此外，每个讲话片段都带有其发言人标签，每个发言人都有其性别标签。统计数据在自述文件中详细说明。

支持的任务和排行榜

该数据集可用于以下任务：

语言建模。
自动语音识别(ASR)将话语转写为单词。
发言人识别（SI）将每个话语分类为其发言人身份，作为多类分类，其中在训练和测试中对发言者进行相同预定义集的标记。

语言

该数据集为加泰隆尼亚语（ca-CA）。

数据集结构

数据实例

{
  'path': 'clean_train/c/c/ccca4790a55aba3e6bcf_63.88_74.06.wav'
  'audio': {
    'path': 'clean_train/c/c/ccca4790a55aba3e6bcf_63.88_74.06.wav',
    'array': array([-6.10351562e-05, -6.10351562e-05, -1.22070312e-04, ...,  
                    -1.22070312e-04,  0.00000000e+00, -3.05175781e-05]),
    'sampling_rate': 16000
  },
  'speaker_id': 167,
  'sentence': "alguns d'ells avui aquí presents un agraïment a aquells que mantenen viva la memòria aquest acte de reparació i dignitat és",
  'gender': 0, 
  'duration': 10.18
}

数据字段

path（str）：音频文件的路径。
audio（dict）：包含下载的音频文件路径、解码的音频数组和采样率的字典。注意，当访问音频列时：dataset[0]["audio"]音频文件会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此，在访问"audio"列之前，首先查询样本索引非常重要，即dataset[0]["audio"]始终优先于dataset["audio"][0]。
speaker_id（int）：发言者ID。
sentence（str）：用户被要求说的句子。
gender（ClassLabel）：发言人的性别（0：'F'，1：'M'）。
duration（float）：演讲的持续时间。

数据拆分

该数据集被分为"train"、"validation"和"test"三个部分。

数据集创建

该数据集是通过对议会会议记录和视听内容进行对齐创建的。更详细的信息请参阅 paper 。

策划原理

我们创建了这个语料库，以促进加泰隆尼亚语（一种资源匮乏的语言）语言模型的发展。

源数据

初始数据收集和归一化

音频片段来自2007/07/11至2018/07/17期间的加泰隆尼亚议会全体会议录音。清理程序在存档的存储库 Long Audio Aligner 中。

谁是源语言的制作者？

2007/07/11至2018/07/17期间的议会成员。

注释

该数据集未经注释。

注释过程

[不适用]

注释者是谁？

[不适用]

个人和敏感信息

初始内容是公开可用的，此外，议会成员的身份是匿名的。

使用数据的注意事项

数据的社会影响

我们希望该语料库能为加泰隆尼亚语（一种资源匮乏的语言）语言模型的发展做出贡献。

偏见讨论

该数据集存在性别偏见，但由于发言者根据性别进行标记，因此可以创建一个平衡的子语料库。

Subcorpus	Gender	Duration (h)
other_test	F	2.516
other_dev	F	2.701
other_train	F	109.68
other_test	M	2.631
other_dev	M	2.513
other_train	M	280.196
other total	400.239
clean_test	F	2.707
clean_dev	F	2.576
clean_train	F	77.905
clean_test	M	2.516
clean_dev	M	2.614
clean_train	M	123.162
clean total	211.48
Total	611.719

其他已知限制

文本语料库属于加泰隆尼亚政治领域。

附加信息

数据集策划者

巴塞罗那超级计算中心( bsc-temu@bsc.es )的文本挖掘单元(TeMU)

这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架下的资助完成。

许可信息

Creative Commons Attribution 4.0 International .

引用信息

@dataset{kulebi_baybars_2021_5541827,
  author       = {Külebi, Baybars},
  title        = {{ParlamentParla - Speech corpus of Catalan 
                   Parliamentary sessions}},
  month        = oct,
  year         = 2021,
  publisher    = {Zenodo},
  version      = {v2.0},
  doi          = {10.5281/zenodo.5541827},
  url          = {https://doi.org/10.5281/zenodo.5541827}
}

提示：对于该论文:

@inproceedings{kulebi2022parlamentparla,
  title={ParlamentParla: A Speech Corpus of Catalan Parliamentary Sessions},
  author={K{\"u}lebi, Baybars and Armentano-Oller, Carme and Rodr{\'\i}guez-Penagos, Carlos and Villegas, Marta},
  booktitle={Workshop on Creating, Enriching and Using Parliamentary Corpora},
  volume={125},
  number={130},
  pages={125},
  year={2022}
}

贡献

感谢 @albertvillanova 提供这个数据集。

作者:

projecte-aina

数据集大小:

50.26 MB