数据集:

projecte-aina/parlament_parla

语言:

ca

计算机处理:

monolingual

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

cc-by-4.0
英文

ParlamentParla数据集卡片

数据集摘要

这是由Col·lectivaT准备的巴塞罗那议会(Parlament de Catalunya)加泰隆尼亚语演讲语料库。音频片段来自2007/07/11至2018/07/17期间的加泰隆尼亚议会全体会议录音。我们将录音与转录内容进行对齐,并提取了该语料库。内容属于加泰隆尼亚议会,并且数据的发布符合他们的使用条款。

这个语料库的准备部分得到了加泰隆尼亚自治政府文化部的支持,并且v2.0得到了巴塞罗那超级计算中心(Barcelona Supercomputing Center)的支持,该支持是在加泰隆尼亚自治政府维斯普里西和数字政策部(Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya)的Projecte AINA框架下进行的。

从v2.0开始,该语料库被分为211小时的干净音频和400小时的其他音质音频。此外,每个讲话片段都带有其发言人标签,每个发言人都有其性别标签。统计数据在自述文件中详细说明。

支持的任务和排行榜

该数据集可用于以下任务:

  • 语言建模。
  • 自动语音识别(ASR)将话语转写为单词。
  • 发言人识别(SI)将每个话语分类为其发言人身份,作为多类分类,其中在训练和测试中对发言者进行相同预定义集的标记。

语言

该数据集为加泰隆尼亚语(ca-CA)。

数据集结构

数据实例

{
  'path': 'clean_train/c/c/ccca4790a55aba3e6bcf_63.88_74.06.wav'
  'audio': {
    'path': 'clean_train/c/c/ccca4790a55aba3e6bcf_63.88_74.06.wav',
    'array': array([-6.10351562e-05, -6.10351562e-05, -1.22070312e-04, ...,  
                    -1.22070312e-04,  0.00000000e+00, -3.05175781e-05]),
    'sampling_rate': 16000
  },
  'speaker_id': 167,
  'sentence': "alguns d'ells avui aquí presents un agraïment a aquells que mantenen viva la memòria aquest acte de reparació i dignitat és",
  'gender': 0, 
  'duration': 10.18
}

数据字段

  • path(str):音频文件的路径。
  • audio(dict):包含下载的音频文件路径、解码的音频数组和采样率的字典。注意,当访问音频列时:dataset[0]["audio"]音频文件会自动解码和重新采样为dataset.features["audio"].sampling_rate。解码和重新采样大量音频文件可能需要很长时间。因此,在访问"audio"列之前,首先查询样本索引非常重要,即dataset[0]["audio"]始终优先于dataset["audio"][0]。
  • speaker_id(int):发言者ID。
  • sentence(str):用户被要求说的句子。
  • gender(ClassLabel):发言人的性别(0:'F',1:'M')。
  • duration(float):演讲的持续时间。

数据拆分

该数据集被分为"train"、"validation"和"test"三个部分。

数据集创建

该数据集是通过对议会会议记录和视听内容进行对齐创建的。更详细的信息请参阅 paper

策划原理

我们创建了这个语料库,以促进加泰隆尼亚语(一种资源匮乏的语言)语言模型的发展。

源数据

初始数据收集和归一化

音频片段来自2007/07/11至2018/07/17期间的加泰隆尼亚议会全体会议录音。清理程序在存档的存储库 Long Audio Aligner 中。

谁是源语言的制作者?

2007/07/11至2018/07/17期间的议会成员。

注释

该数据集未经注释。

注释过程

[不适用]

注释者是谁?

[不适用]

个人和敏感信息

初始内容是公开可用的,此外,议会成员的身份是匿名的。

使用数据的注意事项

数据的社会影响

我们希望该语料库能为加泰隆尼亚语(一种资源匮乏的语言)语言模型的发展做出贡献。

偏见讨论

该数据集存在性别偏见,但由于发言者根据性别进行标记,因此可以创建一个平衡的子语料库。

Subcorpus Gender Duration (h)
other_test F 2.516
other_dev F 2.701
other_train F 109.68
other_test M 2.631
other_dev M 2.513
other_train M 280.196
other total 400.239
clean_test F 2.707
clean_dev F 2.576
clean_train F 77.905
clean_test M 2.516
clean_dev M 2.614
clean_train M 123.162
clean total 211.48
Total 611.719

其他已知限制

文本语料库属于加泰隆尼亚政治领域。

附加信息

数据集策划者

巴塞罗那超级计算中心( bsc-temu@bsc.es )的文本挖掘单元(TeMU)

这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 框架下的资助完成。

许可信息

Creative Commons Attribution 4.0 International .

引用信息

@dataset{kulebi_baybars_2021_5541827,
  author       = {Külebi, Baybars},
  title        = {{ParlamentParla - Speech corpus of Catalan 
                   Parliamentary sessions}},
  month        = oct,
  year         = 2021,
  publisher    = {Zenodo},
  version      = {v2.0},
  doi          = {10.5281/zenodo.5541827},
  url          = {https://doi.org/10.5281/zenodo.5541827}
}
提示:对于该论文:

@inproceedings{kulebi2022parlamentparla,
  title={ParlamentParla: A Speech Corpus of Catalan Parliamentary Sessions},
  author={K{\"u}lebi, Baybars and Armentano-Oller, Carme and Rodr{\'\i}guez-Penagos, Carlos and Villegas, Marta},
  booktitle={Workshop on Creating, Enriching and Using Parliamentary Corpora},
  volume={125},
  number={130},
  pages={125},
  year={2022}
}

贡献

感谢 @albertvillanova 提供这个数据集。