数据集:

PlanTL-GOB-ES/WikiCAT_esv2

许可:

cc-by-sa-3.0

批注创建人:

automatically-generated

语言创建人:

found

大小:

size_categories:unknown

计算机处理:

monolingual

语言:

子任务:

multi-class-classification

任务:

文本分类

数据集介绍文件清单

英文

WikiCAT_ca: 西班牙语文本分类数据集

仓库

数据集概述

WikiCAT_ca是用于主题文本分类任务的西班牙语语料库。它是从维基百科和维基数据来源自动创建的，包含了8401篇来自Viquipedia的文章，分为12个不同的类别。

该数据集是BSC TeMU作为PlanTL项目的一部分开发的，旨在评估生成有用的合成语料库的LT能力。

支持的任务和排行榜

文本分类，语言模型

语言

西班牙语（ES- Spanish）

数据集结构

数据实例

两个json文件，每个分隔。

数据字段

我们使用了一个简单的模型，包含文章文本和相关标签，没有其他元数据。

Example:

{'sentence': 'La economía de Reunión se ha basado tradicionalmente en la agricultura. La caña de azúcar ha sido el cultivo principal durante más de un siglo, y en algunos años representa el 85% de las exportaciones. El gobierno ha estado impulsando el desarrollo de una industria turística para aliviar el alto desempleo, que representa más del 40% de la fuerza laboral.(...) El PIB total de la isla fue de 18.800 millones de dólares EE.UU. en 2007., 'label': 'Economía'}

Labels

'Religión', 'Entretenimiento', 'Música', 'Ciencia_y_Tecnología', 'Política', 'Economía', 'Matemáticas', 'Humanidades', 'Deporte', 'Derecho', 'Historia', 'Filosofía'

数据拆分

hfeval_esv5.json：1681个标签-文档对
hftrain_esv5.json：6716个标签-文档对

数据集创建

方法论

"Categoría"页面代表主题。对于每个主题，我们提取与该层级相关的页面，并使用摘要("summary")作为代表性文本。

策划原理

来源数据

初始数据收集和规范化

源数据是不同维基百科的主题类别

谁是源语言制片人？

注释

注释过程

自动注释

谁是注释人员？

[N/A]

个人和敏感信息

不包括个人或敏感信息。

使用数据的注意事项

数据集的社会影响

我们希望这个语料库能为西班牙语的语言模型的发展做出贡献。

偏见讨论

我们意识到这些数据可能包含偏见。我们没有采取任何措施来减小它们的影响。

其他已知限制

[N/A]

附加信息

数据集策划者

Text Mining Unit (TeMU) at the Barcelona Supercomputing Center ( bsc-temu@bsc.es )。

如需更多信息，请发送电子邮件至 ( plantl-gob-es@bsc.es )。

该工作由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 在 Plan-TL 框架内的资助。

许可信息

该作品根据 CC Attribution 4.0 International 许可证进行许可。

贡献

[N/A]

作者:

PlanTL-GOB-ES

数据集大小:

9.1 MB