数据集:

PlanTL-GOB-ES/WikiCAT_esv2

批注创建人:

automatically-generated

语言创建人:

found

计算机处理:

monolingual

语言:

es
英文

WikiCAT_ca: 西班牙语文本分类数据集

仓库

数据集概述

WikiCAT_ca是用于主题文本分类任务的西班牙语语料库。它是从维基百科和维基数据来源自动创建的,包含了8401篇来自Viquipedia的文章,分为12个不同的类别。

该数据集是BSC TeMU作为PlanTL项目的一部分开发的,旨在评估生成有用的合成语料库的LT能力。

支持的任务和排行榜

文本分类,语言模型

语言

西班牙语(ES- Spanish)

数据集结构

数据实例

两个json文件,每个分隔。

数据字段

我们使用了一个简单的模型,包含文章文本和相关标签,没有其他元数据。

Example:
{'sentence': 'La economía de Reunión se ha basado tradicionalmente en la agricultura. La caña de azúcar ha sido el cultivo principal durante más de un siglo, y en algunos años representa el 85% de las exportaciones. El gobierno ha estado impulsando el desarrollo de una industria turística para aliviar el alto desempleo, que representa más del 40% de la fuerza laboral.(...) El PIB total de la isla fue de 18.800 millones de dólares EE.UU. en 2007., 'label': 'Economía'}


Labels

'Religión', 'Entretenimiento', 'Música', 'Ciencia_y_Tecnología', 'Política', 'Economía', 'Matemáticas', 'Humanidades', 'Deporte', 'Derecho', 'Historia', 'Filosofía'

数据拆分

  • hfeval_esv5.json:1681个标签-文档对
  • hftrain_esv5.json:6716个标签-文档对

数据集创建

方法论

"Categoría"页面代表主题。对于每个主题,我们提取与该层级相关的页面,并使用摘要("summary")作为代表性文本。

策划原理

来源数据

初始数据收集和规范化

源数据是不同维基百科的主题类别

谁是源语言制片人?

注释

注释过程

自动注释

谁是注释人员?

[N/A]

个人和敏感信息

不包括个人或敏感信息。

使用数据的注意事项

数据集的社会影响

我们希望这个语料库能为西班牙语的语言模型的发展做出贡献。

偏见讨论

我们意识到这些数据可能包含偏见。我们没有采取任何措施来减小它们的影响。

其他已知限制

[N/A]

附加信息

数据集策划者

Text Mining Unit (TeMU) at the Barcelona Supercomputing Center ( bsc-temu@bsc.es )。

如需更多信息,请发送电子邮件至 ( plantl-gob-es@bsc.es )。

该工作由 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) Plan-TL 框架内的资助。

许可信息

该作品根据 CC Attribution 4.0 International 许可证进行许可。

版权所有西班牙国家数字化和人工智能秘书处(SEDIA)(2022)

贡献

[N/A]