数据集:

dbpedia_14

任务:

文本分类

子任务:

topic-classification

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

machine-generated

源数据集:

original

许可:

cc-by-sa-3.0

数据集介绍文件清单

英文

DBpedia14数据集的数据卡

数据集概述

DBpedia本体分类数据集是通过从DBpedia 2014中选择14个不重复的类来构建的。这些类别在classes.txt中列出。从这14个本体类别中，我们随机选择了40,000个训练样本和5,000个测试样本。因此，训练数据集的总大小为560,000个，测试数据集为70,000个。数据集中有3列（对于训练和测试集是一样的），分别对应类别索引（1到14）、标题和内容。标题和内容都是使用双引号（"）进行转义，任何内部的双引号都被两个双引号（""）转义。标题或内容中没有换行符。

支持的任务和排行榜

文本分类，主题分类：该数据集主要用于文本分类：给定内容和标题，预测正确的主题。

语言

虽然DBpedia是一个多语言的知识库，但DBpedia14提取主要包含英语数据，其他语言可能会出现（例如，标题最初不是英语的电影）。

数据集结构

数据实例

一个典型的数据点由标题、内容和相应的标签组成。

DBpedia测试集中的一个例子如下：

{
    'title':'',
    'content':" TY KU /taɪkuː/ is an American alcoholic beverage company that specializes in sake and other spirits. The privately-held company was founded in 2004 and is headquartered in New York City New York. While based in New York TY KU's beverages are made in Japan through a joint venture with two sake breweries. Since 2011 TY KU's growth has extended its products into all 50 states.",
    'label':0
}

数据字段

'title'：包含文档标题的字符串 - 使用双引号（"）转义，任何内部的双引号都被两个双引号（""）转义。
'content'：包含文档正文的字符串 - 使用双引号（"）转义，任何内部的双引号都被两个双引号（""）转义。
'label'：14个可能的主题之一。

数据拆分

数据被划分为训练集和测试集。对于这14个类别，我们有40,000个训练样本和5,000个测试样本。因此，训练数据集的总大小为560,000个，测试数据集为70,000个。

数据集创建

策划理由

DBPedia本体分类数据集是由Xiang Zhang（xiang.zhang@nyu.edu）构建的，根据知识共享署名-相同方式共享许可协议和GNU自由文档许可证的条款进行许可。它在以下论文中用作文本分类基准：Xiang Zhang，Junbo Zhao，Yann LeCun。字符级卷积网络用于文本分类。神经信息处理系统28（NIPS 2015）的进展。

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言制片人？

[需要更多信息]

注释

注释过程

[需要更多信息]

判定者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据对社会的影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

许可信息

DBPedia本体分类数据集根据知识共享署名-相同方式共享许可协议和GNU自由文档许可证的条款进行许可。

引用信息

Xiang Zhang，Junbo Zhao，Yann LeCun。字符级卷积网络用于文本分类。神经信息处理系统28（NIPS 2015）的进展。

Lehmann，Jens，Robert lsele，Max Jakob，Anja Jentzsch，Dimitris Kontokostas，Pablo N. Mendes，Sebastian Hellmann等人。DBpedia--从维基百科中提取的大规模多语言知识库。语义Web 6，第2期（2015）：167-195。

贡献

感谢 @hfawaz 添加此数据集。

作者:

佚名

数据集大小:

15.64 KB