数据集:

cfq

任务:

问答

task_categories:other

子任务:

open-domain-qa closed-domain-qa

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

expert-generated

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:1912.09713

其他:

compositionality

许可:

cc-by-4.0

数据集介绍文件清单

英文

关于"cfq"的数据集卡片

数据集概述

Compositional Freebase Questions (CFQ)是一个专门设计用于衡量组合泛化能力的数据集。CFQ是一个简单而又现实的大型自然语言问题和答案数据集，对于每个问题还提供了与Freebase知识库对应的SPARQL查询。这意味着CFQ也可以用于语义解析。

支持的任务和排行榜

More Information Needed

语言

英语 (en)。

数据集结构

数据实例

mcd1

下载的数据集文件大小： 267.60 MB
生成的数据集大小： 42.90 MB
总使用的磁盘空间： 310.49 MB

"train"的示例如下所示。

{
  'query': 'SELECT count(*) WHERE {\n?x0 a ns:people.person .\n?x0 ns:influence.influence_node.influenced M1 .\n?x0 ns:influence.influence_node.influenced M2 .\n?x0 ns:people.person.spouse_s/ns:people.marriage.spouse|ns:fictional_universe.fictional_character.married_to/ns:fictional_universe.marriage_of_fictional_characters.spouses ?x1 .\n?x1 a ns:film.cinematographer .\nFILTER ( ?x0 != ?x1 )\n}',
  'question': 'Did a person marry a cinematographer , influence M1 , and influence M2'
}

mcd2

下载的数据集文件大小： 267.60 MB
生成的数据集大小： 44.77 MB
总使用的磁盘空间： 312.38 MB

"train"的示例如下所示。

{
  'query': 'SELECT count(*) WHERE {\n?x0 ns:people.person.parents|ns:fictional_universe.fictional_character.parents|ns:organization.organization.parent/ns:organization.organization_relationship.parent ?x1 .\n?x1 a ns:people.person .\nM1 ns:business.employer.employees/ns:business.employment_tenure.person ?x0 .\nM1 ns:business.employer.employees/ns:business.employment_tenure.person M2 .\nM1 ns:business.employer.employees/ns:business.employment_tenure.person M3 .\nM1 ns:business.employer.employees/ns:business.employment_tenure.person M4 .\nM5 ns:business.employer.employees/ns:business.employment_tenure.person ?x0 .\nM5 ns:business.employer.employees/ns:business.employment_tenure.person M2 .\nM5 ns:business.employer.employees/ns:business.employment_tenure.person M3 .\nM5 ns:business.employer.employees/ns:business.employment_tenure.person M4\n}',
  'question': "Did M1 and M5 employ M2 , M3 , and M4 and employ a person 's child"
}

mcd3

下载的数据集文件大小： 267.60 MB
生成的数据集大小： 43.60 MB
总使用的磁盘空间： 311.20 MB

"train"的示例如下所示。

{
    "query": "SELECT /producer M0 . /director M0 . ",
    "question": "Who produced and directed M0?"
}

query_complexity_split

下载的数据集文件大小： 267.60 MB
生成的数据集大小： 45.95 MB
总使用的磁盘空间： 313.55 MB

"train"的示例如下所示。

{
    "query": "SELECT /producer M0 . /director M0 . ",
    "question": "Who produced and directed M0?"
}

query_pattern_split

下载的数据集文件大小： 267.60 MB
生成的数据集大小： 46.12 MB
总使用的磁盘空间： 313.72 MB

"train"的示例如下所示。

{
    "query": "SELECT /producer M0 . /director M0 . ",
    "question": "Who produced and directed M0?"
}

数据字段

所有拆分和配置的数据字段相同：

question ：一个字符串特征。
query ：一个字符串特征。

数据拆分

name	train	test
mcd1	95743	11968
mcd2	95743	11968
mcd3	95743	11968
query_complexity_split	100654	9512
query_pattern_split	94600	12589
question_complexity_split	98999	10340
question_pattern_split	95654	11909
random_split	95744	11967

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

谁是源语言的制片人？

More Information Needed

注释

注释流程

More Information Needed

谁是注释者？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@inproceedings{Keysers2020,
  title={Measuring Compositional Generalization: A Comprehensive Method on
         Realistic Data},
  author={Daniel Keysers and Nathanael Sch"{a}rli and Nathan Scales and
          Hylke Buisman and Daniel Furrer and Sergii Kashubin and
          Nikola Momchev and Danila Sinopalnikov and Lukasz Stafiniak and
          Tibor Tihon and Dmitry Tsarkov and Xiao Wang and Marc van Zee and
          Olivier Bousquet},
  booktitle={ICLR},
  year={2020},
  url={https://arxiv.org/abs/1912.09713.pdf},
}

贡献者

感谢 @thomwolf , @patrickvonplaten , @lewtun , @brainshawn 添加了此数据集。

作者:

佚名

数据集大小:

32.21 KB

关于"cfq"的数据集卡片

数据集概述

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据的社会影响

偏见讨论

其他已知限制

其他信息

数据集策划者

许可信息

引用信息

贡献者