数据集:
dbpedia_14
任务:
文本分类子任务:
topic-classification语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
crowdsourced批注创建人:
machine-generated源数据集:
original许可:
cc-by-sa-3.0DBpedia本体分类数据集是通过从DBpedia 2014中选择14个不重复的类来构建的。这些类别在classes.txt中列出。从这14个本体类别中,我们随机选择了40,000个训练样本和5,000个测试样本。因此,训练数据集的总大小为560,000个,测试数据集为70,000个。数据集中有3列(对于训练和测试集是一样的),分别对应类别索引(1到14)、标题和内容。标题和内容都是使用双引号(")进行转义,任何内部的双引号都被两个双引号("")转义。标题或内容中没有换行符。
虽然DBpedia是一个多语言的知识库,但DBpedia14提取主要包含英语数据,其他语言可能会出现(例如,标题最初不是英语的电影)。
一个典型的数据点由标题、内容和相应的标签组成。
DBpedia测试集中的一个例子如下:
{ 'title':'', 'content':" TY KU /taɪkuː/ is an American alcoholic beverage company that specializes in sake and other spirits. The privately-held company was founded in 2004 and is headquartered in New York City New York. While based in New York TY KU's beverages are made in Japan through a joint venture with two sake breweries. Since 2011 TY KU's growth has extended its products into all 50 states.", 'label':0 }
数据被划分为训练集和测试集。对于这14个类别,我们有40,000个训练样本和5,000个测试样本。因此,训练数据集的总大小为560,000个,测试数据集为70,000个。
DBPedia本体分类数据集是由Xiang Zhang(xiang.zhang@nyu.edu)构建的,根据知识共享署名-相同方式共享许可协议和GNU自由文档许可证的条款进行许可。它在以下论文中用作文本分类基准:Xiang Zhang,Junbo Zhao,Yann LeCun。字符级卷积网络用于文本分类。神经信息处理系统28(NIPS 2015)的进展。
[需要更多信息]
谁是源语言制片人?[需要更多信息]
[需要更多信息]
判定者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
DBPedia本体分类数据集是由Xiang Zhang(xiang.zhang@nyu.edu)构建的,根据知识共享署名-相同方式共享许可协议和GNU自由文档许可证的条款进行许可。它在以下论文中用作文本分类基准:Xiang Zhang,Junbo Zhao,Yann LeCun。字符级卷积网络用于文本分类。神经信息处理系统28(NIPS 2015)的进展。
DBPedia本体分类数据集根据知识共享署名-相同方式共享许可协议和GNU自由文档许可证的条款进行许可。
Xiang Zhang,Junbo Zhao,Yann LeCun。字符级卷积网络用于文本分类。神经信息处理系统28(NIPS 2015)的进展。
Lehmann,Jens,Robert lsele,Max Jakob,Anja Jentzsch,Dimitris Kontokostas,Pablo N. Mendes,Sebastian Hellmann等人。DBpedia--从维基百科中提取的大规模多语言知识库。语义Web 6,第2期(2015):167-195。
感谢 @hfawaz 添加此数据集。