数据集:

spider

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

1K<n<10K

批注创建人:

expert-generated

源数据集:

original

许可:

cc-by-4.0
英文

Spider数据集数据卡片

数据集摘要

Spider是一个由11位耶鲁大学学生注释的大规模复杂跨域语义解析和文本到SQL的数据集。Spider挑战的目标是开发自然语言接口以访问跨域数据库。

支持的任务和排行榜

排行榜可在 https://yale-lily.github.io/spider 处查看。

语言

数据集中的文本为英文。

数据集结构

数据实例

数据集的实例是什么?

每个实例由自然语言问题和相应的SQL查询组成。

总共有多少实例?

每个实例包括哪些数据?

[需要更多信息]

数据字段

  • db_id:数据库名称
  • question:需要解释为SQL的自然语言
  • query:目标SQL查询
  • query_toks:查询的标记列表
  • query_toks_no_value:查询的标记列表
  • question_toks:问题的标记列表

数据拆分

训练集:7000个问题和SQL查询对,开发集:1034个问题和SQL查询对。

[需要更多信息]

数据集创建

配置理由

[需要更多信息]

源数据

初始数据收集和规范化,语言制作者是谁?

[需要更多信息]

注释

数据集由耶鲁大学的11名学生进行了注释。

注释过程,谁是标注者?

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

偏见讨论

[需要更多信息]

其他已知限制

附加信息

在主页上列出的作者正在维护或支持这个数据集。

数据集策划者

[需要更多信息]

许可信息

Spider数据集的许可证为 CC BY-SA 4.0

[需要更多信息]

引用信息

@article{yu2018spider,
  title={Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task},
  author={Yu, Tao and Zhang, Rui and Yang, Kai and Yasunaga, Michihiro and Wang, Dongxu and Li, Zifan and Ma, James and Li, Irene and Yao, Qingning and Roman, Shanelle and others},
  journal={arXiv preprint arXiv:1809.08887},
  year={2018}
}

贡献

感谢 @olinguyen 添加此数据集。