数据集:

collectivat/tv3_parla

语言:

ca

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

TV3Parla数据集卡片

数据集概述

该语料库包含来自广播材料的240小时的加泰罗尼亚语音。关于分割、数据处理和模型训练的细节在 Külebi, Öktem; 2018 中有详细说明。内容归Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)所有;我们处理了他们的材料,并根据他们的使用条款提供。

这个项目得到了Softcatalà协会的支持。

支持的任务和排行榜

该数据集可用于以下任务:

  • 语言建模。
  • 自动语音识别 (ASR) 将话语转录为词语。

语言

该数据集是加泰罗尼亚语(ca)。

数据集结构

数据实例

{
  'path': 'tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav',
  'audio': {'path': 'tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav',
   'array': array([-0.01168823,  0.01229858,  0.02819824, ...,  0.015625  ,
          0.01525879,  0.0145874 ]),
   'sampling_rate': 16000},
  'text': 'algunes montoneres que que et feien anar ben col·locat i el vent també hi jugava una mica de paper bufava vent de cantó alguns cops o de cul i el pelotón el vent el porta molt malament hi havia molts nervis'
}

数据字段

  • 路径 (str): 音频文件的路径。
  • 音频 (dict): 包含下载的音频文件的路径、解码后的音频数组和采样率的字典。注意当访问音频列时:dataset[0]["audio"],音频文件会被自动解码和重采样为dataset.features["audio"].sampling_rate. 解码和重采样大量音频文件可能需要较长时间。因此,首先查询样本索引是很重要的,然后再查询"audio"列,即dataset[0]["audio"]应优先于dataset["audio"][0]。
  • 文本 (str): 音频文件的转录。

数据拆分

该数据集分为"训练"和"测试"两部分。

train test
Number of examples 159242 2220

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人信息和敏感信息

[需要更多信息]

使用该数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

Creative Commons Attribution-NonCommercial 4.0 International .

引用信息

@inproceedings{kulebi18_iberspeech,
  author={Baybars Külebi and Alp Öktem},
  title={{Building an Open Source Automatic Speech Recognition System for Catalan}},
  year=2018,
  booktitle={Proc. IberSPEECH 2018},
  pages={25--29},
  doi={10.21437/IberSPEECH.2018-6}
}

贡献者

感谢 @albertvillanova 添加了该数据集。