数据集:

spider

任务:

文生文

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

expert-generated machine-generated

批注创建人:

expert-generated

源数据集:

original

其他:

text-to-sql

许可:

cc-by-4.0

数据集介绍文件清单

英文

Spider数据集数据卡片

数据集摘要

Spider是一个由11位耶鲁大学学生注释的大规模复杂跨域语义解析和文本到SQL的数据集。Spider挑战的目标是开发自然语言接口以访问跨域数据库。

支持的任务和排行榜

排行榜可在 https://yale-lily.github.io/spider 处查看。

语言

数据集中的文本为英文。

数据集结构

数据实例

数据集的实例是什么？

每个实例由自然语言问题和相应的SQL查询组成。

总共有多少实例？

每个实例包括哪些数据？

[需要更多信息]

数据字段

db_id：数据库名称
question：需要解释为SQL的自然语言
query：目标SQL查询
query_toks：查询的标记列表
query_toks_no_value：查询的标记列表
question_toks：问题的标记列表

数据拆分

训练集：7000个问题和SQL查询对，开发集：1034个问题和SQL查询对。

[需要更多信息]

数据集创建

配置理由

[需要更多信息]

源数据

初始数据收集和规范化，语言制作者是谁？

[需要更多信息]

注释

数据集由耶鲁大学的11名学生进行了注释。

注释过程，谁是标注者？

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

偏见讨论

[需要更多信息]

其他已知限制

附加信息

在主页上列出的作者正在维护或支持这个数据集。

数据集策划者

[需要更多信息]

许可信息

Spider数据集的许可证为 CC BY-SA 4.0 。

[需要更多信息]

引用信息

@article{yu2018spider,
  title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task},
  author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others},
  journal={arXiv preprint arXiv:1809.08887},
  year={2018}
}

贡献

感谢 @olinguyen 添加此数据集。

作者:

佚名

数据集大小:

95.13 MB