数据集:

PlanTL-GOB-ES/WikiCAT_en

语言:

en

计算机处理:

monolingual

语言创建人:

found

批注创建人:

automatically-generated
英文

WikiCAT_en(文本分类)英文数据集

carlos.rodriguez1@bsc.es

仓库

https://github.com/TeMU-BSC/WikiCAT

数据集摘要

WikiCAT_en是一个用于主题文本分类任务的英文语料库。它是从维基百科和维基数据来源自动创建的,包含了来自维基百科的28921篇文章摘要,分类在19个不同的类别下。

该数据集是BSC TeMU作为PlanTL项目的一部分开发的,旨在评估语言技术生成有用的合成语料库的能力。

支持的任务和排行榜

文本分类,语言模型

语言

EN - 英语

数据集结构

数据实例

两个json文件,每个文件对应一个切分。

数据字段

我们使用了一个简单的模型,包括文章文本和相关标签,没有进一步的元数据。

示例:
{"version": "1.1.0",
 "data":
   [
    {
     {'sentence': 'The IEEE Donald G. Fink Prize Paper Award was established in 1979 by the board of directors of the Institute of Electrical and Electronics Engineers (IEEE) in honor of Donald G. Fink. He was a past president of the Institute of Radio Engineers (IRE), and the first general manager and executive director of the IEEE. Recipients of this award received a certificate and an honorarium. The award was presented annually since 1981 and discontinued in 2016.', 'label': 'Engineering'
     },
    .
    .
    .
  ]
}


Labels

'Health','Law','Entertainment','Religion','Business','Science','Engineering','Nature','Philosophy','Economy','Sports','Technology','Government','Mathematics','Military','Humanities','Music','Politics','History'

数据切分

  • hftrain_en.json:20237个标签-文档对
  • hfeval_en.json:8684个标签-文档对

数据集创建

方法论

选择起始页面“分类:”来代表每种语言的主题。

对于每个类别,提取主要页面以及子类别和这些子类别下的个别页面。对于每个页面,还提取维基百科提供的“摘要”。

策划理由

来源数据

初始数据收集和规范化

源数据是维基百科页面摘要和主题类别

谁是源语言的生产者?

注释

注释过程 注释者是谁?

自动注释

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据集的社会影响

[N/A]

偏见讨论

[N/A]

其他已知限制

[N/A]

其他信息

数据集策划人员

巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)。

要获取更多信息,请发送电子邮件至(planl-gob-es@bsc.es)。

这项工作是在 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 框架下由 Plan-TL 资助的。

许可信息

此作品根据 CC Attribution 4.0 International 许可证授权。

版权所有:西班牙数字化和人工智能国家秘书处(SEDIA)(2022年)

贡献

[N/A]