数据集:

dbpedia_14

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

crowdsourced

批注创建人:

machine-generated

源数据集:

original
英文

DBpedia14数据集的数据卡

数据集概述

DBpedia本体分类数据集是通过从DBpedia 2014中选择14个不重复的类来构建的。这些类别在classes.txt中列出。从这14个本体类别中,我们随机选择了40,000个训练样本和5,000个测试样本。因此,训练数据集的总大小为560,000个,测试数据集为70,000个。数据集中有3列(对于训练和测试集是一样的),分别对应类别索引(1到14)、标题和内容。标题和内容都是使用双引号(")进行转义,任何内部的双引号都被两个双引号("")转义。标题或内容中没有换行符。

支持的任务和排行榜

  • 文本分类,主题分类:该数据集主要用于文本分类:给定内容和标题,预测正确的主题。

语言

虽然DBpedia是一个多语言的知识库,但DBpedia14提取主要包含英语数据,其他语言可能会出现(例如,标题最初不是英语的电影)。

数据集结构

数据实例

一个典型的数据点由标题、内容和相应的标签组成。

DBpedia测试集中的一个例子如下:

{
    'title':'',
    'content':" TY KU /taɪkuː/ is an American alcoholic beverage company that specializes in sake and other spirits. The privately-held company was founded in 2004 and is headquartered in New York City New York. While based in New York TY KU's beverages are made in Japan through a joint venture with two sake breweries. Since 2011 TY KU's growth has extended its products into all 50 states.",
    'label':0
}

数据字段

  • 'title':包含文档标题的字符串 - 使用双引号(")转义,任何内部的双引号都被两个双引号("")转义。
  • 'content':包含文档正文的字符串 - 使用双引号(")转义,任何内部的双引号都被两个双引号("")转义。
  • 'label':14个可能的主题之一。

数据拆分

数据被划分为训练集和测试集。对于这14个类别,我们有40,000个训练样本和5,000个测试样本。因此,训练数据集的总大小为560,000个,测试数据集为70,000个。

数据集创建

策划理由

DBPedia本体分类数据集是由Xiang Zhang(xiang.zhang@nyu.edu)构建的,根据知识共享署名-相同方式共享许可协议和GNU自由文档许可证的条款进行许可。它在以下论文中用作文本分类基准:Xiang Zhang,Junbo Zhao,Yann LeCun。字符级卷积网络用于文本分类。神经信息处理系统28(NIPS 2015)的进展。

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言制片人?

[需要更多信息]

注释

注释过程

[需要更多信息]

判定者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据对社会的影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

DBPedia本体分类数据集是由Xiang Zhang(xiang.zhang@nyu.edu)构建的,根据知识共享署名-相同方式共享许可协议和GNU自由文档许可证的条款进行许可。它在以下论文中用作文本分类基准:Xiang Zhang,Junbo Zhao,Yann LeCun。字符级卷积网络用于文本分类。神经信息处理系统28(NIPS 2015)的进展。

许可信息

DBPedia本体分类数据集根据知识共享署名-相同方式共享许可协议和GNU自由文档许可证的条款进行许可。

引用信息

Xiang Zhang,Junbo Zhao,Yann LeCun。字符级卷积网络用于文本分类。神经信息处理系统28(NIPS 2015)的进展。

Lehmann,Jens,Robert lsele,Max Jakob,Anja Jentzsch,Dimitris Kontokostas,Pablo N. Mendes,Sebastian Hellmann等人。DBpedia--从维基百科中提取的大规模多语言知识库。语义Web 6,第2期(2015):167-195。

贡献

感谢 @hfawaz 添加此数据集。