数据集:

collectivat/tv3_parla

任务:

自动语音识别

文本生成

子任务:

language-modeling

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

cc-by-nc-4.0

数据集介绍文件清单

英文

TV3Parla数据集卡片

数据集概述

该语料库包含来自广播材料的240小时的加泰罗尼亚语音。关于分割、数据处理和模型训练的细节在 Külebi, Öktem; 2018 中有详细说明。内容归Corporació Catalana de Mitjans Audiovisuals, SA (CCMA)所有；我们处理了他们的材料，并根据他们的使用条款提供。

这个项目得到了Softcatalà协会的支持。

支持的任务和排行榜

该数据集可用于以下任务：

语言建模。
自动语音识别 (ASR) 将话语转录为词语。

语言

该数据集是加泰罗尼亚语（ca）。

数据集结构

数据实例

{
  'path': 'tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav',
  'audio': {'path': 'tv3_0.3/wav/train/5662515_1492531876710/5662515_1492531876710_120.180_139.020.wav',
   'array': array([-0.01168823,  0.01229858,  0.02819824, ...,  0.015625  ,
          0.01525879,  0.0145874 ]),
   'sampling_rate': 16000},
  'text': 'algunes montoneres que que et feien anar ben col·locat i el vent també hi jugava una mica de paper bufava vent de cantó alguns cops o de cul i el pelotón el vent el porta molt malament hi havia molts nervis'
}

数据字段

路径 (str): 音频文件的路径。
音频 (dict): 包含下载的音频文件的路径、解码后的音频数组和采样率的字典。注意当访问音频列时：dataset[0]["audio"]，音频文件会被自动解码和重采样为dataset.features["audio"].sampling_rate. 解码和重采样大量音频文件可能需要较长时间。因此，首先查询样本索引是很重要的，然后再查询"audio"列，即dataset[0]["audio"]应优先于dataset["audio"][0]。
文本 (str): 音频文件的转录。

数据拆分

该数据集分为"训练"和"测试"两部分。

train	test
Number of examples	159242	2220

数据集创建

策划理由

[需要更多信息]

来源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人信息和敏感信息

[需要更多信息]

使用该数据的考虑事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

Creative Commons Attribution-NonCommercial 4.0 International .

引用信息

@inproceedings{kulebi18_iberspeech,
  author={Baybars Külebi and Alp Öktem},
  title={{Building an Open Source Automatic Speech Recognition System for Catalan}},
  year=2018,
  booktitle={Proc. IberSPEECH 2018},
  pages={25--29},
  doi={10.21437/IberSPEECH.2018-6}
}

贡献者

感谢 @albertvillanova 添加了该数据集。

作者:

collectivat

数据集大小:

27.63 GB