数据集:
PlanTL-GOB-ES/WikiCAT_en
carlos.rodriguez1@bsc.es
仓库
https://github.com/TeMU-BSC/WikiCAT
WikiCAT_en是一个用于主题文本分类任务的英文语料库。它是从维基百科和维基数据来源自动创建的,包含了来自维基百科的28921篇文章摘要,分类在19个不同的类别下。
该数据集是BSC TeMU作为PlanTL项目的一部分开发的,旨在评估语言技术生成有用的合成语料库的能力。
文本分类,语言模型
EN - 英语
两个json文件,每个文件对应一个切分。
我们使用了一个简单的模型,包括文章文本和相关标签,没有进一步的元数据。
示例:{"version": "1.1.0", "data": [ { {'sentence': 'The IEEE Donald G. Fink Prize Paper Award was established in 1979 by the board of directors of the Institute of Electrical and Electronics Engineers (IEEE) in honor of Donald G. Fink. He was a past president of the Institute of Radio Engineers (IRE), and the first general manager and executive director of the IEEE. Recipients of this award received a certificate and an honorarium. The award was presented annually since 1981 and discontinued in 2016.', 'label': 'Engineering' }, . . . ] }Labels
'Health','Law','Entertainment','Religion','Business','Science','Engineering','Nature','Philosophy','Economy','Sports','Technology','Government','Mathematics','Military','Humanities','Music','Politics','History'
选择起始页面“分类:”来代表每种语言的主题。
对于每个类别,提取主要页面以及子类别和这些子类别下的个别页面。对于每个页面,还提取维基百科提供的“摘要”。
源数据是维基百科页面摘要和主题类别
谁是源语言的生产者?自动注释
不包含个人或敏感信息。
[N/A]
[N/A]
[N/A]
巴塞罗那超级计算中心(Barcelona Supercomputing Center)的文本挖掘单元(TeMU)(bsc-temu@bsc.es)。
要获取更多信息,请发送电子邮件至(planl-gob-es@bsc.es)。
这项工作是在 Spanish State Secretariat for Digitalization and Artificial Intelligence (SEDIA) 框架下由 Plan-TL 资助的。
此作品根据 CC Attribution 4.0 International 许可证授权。
版权所有:西班牙数字化和人工智能国家秘书处(SEDIA)(2022年)
[N/A]