数据集:

drop

批注创建人:

crowdsourced

源数据集:

original

语言创建人:

crowdsourced

大小:

10K<n<100K

计算机处理:

monolingual

语言:

en
英文

"drop" 数据集卡片

数据集概述

DROP:一个需要对段落进行离散推理的阅读理解基准。 DROP是一个众包、对抗性创建的、96k个问题的基准,在这个基准中,一个系统必须解决问题中的引用,可能是对多个输入位置的引用,并对它们执行离散操作(比如加法、计数或排序)。这些操作需要比之前的数据集更全面地理解段落的内容。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认
  • 下载的数据集文件大小: 8.30 MB
  • 生成的数据集大小: 110.91 MB
  • 使用的总磁盘空间: 119.21 MB

'验证集'的一个示例如下所示。

This example was too long and was cropped:

{
    "answers_spans": {
        "spans": ["Chaz Schilens"]
    },
    "passage": "\" Hoping to rebound from their loss to the Patriots, the Raiders stayed at home for a Week 16 duel with the Houston Texans.  Oak...",
    "question": "Who scored the first touchdown of the game?"
}

数据字段

所有拆分中的数据字段都是相同的。

默认
  • 段落 : 一个字符串类型的特征。
  • 问题 : 一个字符串类型的特征。
  • 答案跨度 : 包含以下字段的字典特征:
    • 跨度 : 一个字符串类型的特征。

数据拆分

name train validation
default 77409 9536

数据集创建

策划理念

More Information Needed

源数据

初始数据收集与规范化

More Information Needed

资源语言的制片人是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据时的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

授权信息

More Information Needed

引用信息

@inproceedings{Dua2019DROP,
  author={Dheeru Dua and Yizhong Wang and Pradeep Dasigi and Gabriel Stanovsky and Sameer Singh and Matt Gardner},
  title={  {DROP}: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs},
  booktitle={Proc. of NAACL},
  year={2019}
}

贡献者

感谢 @patrickvonplaten , @thomwolf , @mariamabarham , @lewtun 添加了这个数据集。