数据集:

lc_quad

任务:

问答

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

其他:

knowledge-base-qa

许可:

cc-by-3.0

数据集介绍文件清单

英文

LC-QuAD 2.0数据集卡片

数据集概述

LC-QuAD 2.0是一个大型问答数据集，包含30,000对问题和相应的SPARQL查询。目标知识库是Wikidata和DBpedia，具体是2018年的版本。有关数据集创建过程和框架的详细信息，请参阅我们的论文。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default

下载的数据集文件大小：3.87 MB
生成的数据集大小：20.73 MB
总使用磁盘空间量：24.60 MB

'train'的一个示例如下所示。

This example was too long and was cropped:

{
    "NNQT_question": "What is the {periodical literature} for {mouthpiece} of {Delta Air Lines}",
    "paraphrased_question": "What is Delta Air Line's periodical literature mouthpiece?",
    "question": "What periodical literature does Delta Air Lines use as a moutpiece?",
    "sparql_dbpedia18": "\"select distinct ?obj where { ?statement <http://www.w3.org/1999/02/22-rdf-syntax-ns#subject> <http://wikidata.dbpedia.org/resou...",
    "sparql_wikidata": " select distinct ?obj where { wd:Q188920 wdt:P2813 ?obj . ?obj wdt:P31 wd:Q1002697 } ",
    "subgraph": "simple question right",
    "template": " <S P ?O ; ?O instanceOf Type>",
    "template_index": 65,
    "uid": 19719
}

数据字段

数据字段在所有拆分中相同。

default

NNQT_question：字符串特征。
uid：int32特征。
subgraph：字符串特征。
template_index：int32特征。
question：字符串特征。
sparql_wikidata：字符串特征。
sparql_dbpedia18：字符串特征。
template：字符串特征。
paraphrased_question：字符串特征。

数据拆分

name	train	test
default	19293	4781

数据集创建

策展理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言制作人？

More Information Needed

注释

注释过程

More Information Needed

谁是注释者？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

附加信息

数据集策展人

More Information Needed

许可信息

LC-QuAD 2.0的许可协议是 Creative Commons Attribution 3.0 Unported License 。

引用信息

@inproceedings{dubey2017lc2,
   title={LC-QuAD 2.0: A Large Dataset for Complex Question Answering over Wikidata and DBpedia},
   author={Dubey, Mohnish and Banerjee, Debayan and Abdelkawi, Abdelrahman and Lehmann, Jens},
   booktitle={Proceedings of the 18th International Semantic Web Conference (ISWC)},
   year={2019},
   organization={Springer}
}

贡献

感谢 @lewtun 、 @thomwolf 、 @patrickvonplaten 添加了该数据集。

作者:

佚名

数据集大小:

3.7 MB

LC-QuAD 2.0数据集卡片

数据集概述

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策展理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

附加信息

数据集策展人

许可信息

引用信息

贡献