数据集:

GEM/squad_v2

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

crowd-sourced

源数据集:

original

预印本库:

arxiv:1806.03822
英文

GEM/squad_v2 数据集卡片

主要数据卡片链接

可以在此链接找到主要数据卡片: GEM Website

数据集摘要

SQuAD2.0 是一个测试模型不仅能回答阅读理解问题,还能在给定的段落中无法回答问题时选择放弃回答的能力的数据集。评估模型在榜单上的性能使用 F1 分数。在 GEM 中,我们使用该数据集用于问题生成任务,模型需要从输入文本中生成类似于 SQuAD 数据集的问题。

可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/squad_v2')

数据加载器可以在此处找到: here

Website

Arxiv

作者:Pranav Rajpurkar,Robin Jia和Percy Liang

数据集概述

数据和文档的获取方式

网页 Website

下载 Website

论文 Arxiv

BibTex

@inproceedings{Rajpurkar2018KnowWY,
  title={Know What You Don’t Know: Unanswerable Questions for SQuAD},
  author={Pranav Rajpurkar and Robin Jia and Percy Liang},
  booktitle={ACL},
  year={2018}
}

联系人姓名 Robin Jia

联系人邮箱 robinjia@stanford.edu

有榜单吗?

榜单链接 Website

榜单详情:SQuAD2.0 测试了系统在不仅能回答阅读理解问题,还能在给定的段落中无法回答问题时选择放弃回答的能力上的表现。评估模型的指标是 F1 分数。

语言和使用方式

多语言?

覆盖语言 英语

许可证 cc-by-sa-4.0: 国际创意共享署名-相同方式共享4.0

预期使用方式 构建模型使其了解在给定上下文中无法回答问题。此数据集可用于机器阅读理解、摘录型问答和问题生成等任务。

主要任务 问题生成

交际目标 给定输入段落和答案片段,目标是生成一个询问答案的问题。

鸣谢

数据整理组织类型 学术

数据整理组织 Stanford University

数据集创建者 Pranav Rajpurkar,Robin Jia和Percy Liang

资助 Facebook和NSF研究计划奖学金,奖学金号:DGE-114747

将数据集添加到 GEM 的人是 (Abinaya Mahendiran)[ https://github.com/AbinayaM02] ,Manager Data Science, NEXT Labs ]

数据集结构

数据字段在所有拆分中都相同。

squad_v2

  • id:字符串特征。
  • gem_id:字符串特征。
  • title:字符串特征。
  • context:字符串特征。
  • question:字符串特征。
  • answers:包含以下内容的字典特征:
    • text:字符串特征。
    • answer_start:int32特征。

示例实例

  • 这是验证数据点的示例。此示例太长,已经被裁剪:
    {
        "gem_id": "gem-squad_v2-validation-1",
        "id": "56ddde6b9a695914005b9629",
        "answers": {
            "answer_start": [94, 87, 94, 94],
            "text": ["10th and 11th centuries", "in the 10th and 11th centuries", "10th and 11th centuries", "10th and 11th centuries"]
        },
        "context": "\"The Normans (Norman: Nourmands; French: Normands; Latin: Normanni) were the people who in the 10th and 11th centuries gave thei...",
        "question": "When were the Normans in Normandy?",
        "title": "Normans"
    }
    

数据拆分

原始 SQuAD2.0 数据集只有训练集和验证集(开发集)。训练集进一步划分为测试集并作为 GEM 数据集的一部分。

name train validation test
squad_v2 90403 11873 39916

在 GEM 中的数据集

在 GEM 中包含的原因

为什么数据集包含在 GEM 中? SQuAD2.0将鼓励开发具有深层次理解语言能力的阅读理解模型,使其了解自己不懂的内容。它还可以帮助构建更好的答案感知的问题生成模型。

类似的数据集

独特的语言覆盖范围

数据集测量的能力 推理能力

GEM 特定的整理

GEM 修改了该数据集吗?

GEM 的修改 其他

附加拆分?

拆分信息 作为 GEM 的一部分,原始数据集的训练集(80%)分为两个训练集(90%)和测试集(剩余10%)。目的是为用户提供所有三个拆分以供使用。

入门任务

先前的结果

先前的结果

测量的模型能力 摘录型问答,问题生成

指标 其他:其他指标,METEOR,ROUGE,BLEU

其他指标

  • 摘录型问答使用精确匹配度和F1分数
  • 问题生成使用METEOR、ROUGE-L、BLEU-4

有先前的结果吗?

其他评估方法 问题生成使用METEOR、ROUGE-L、BLEU-4

相关先前结果 Dong2019UnifiedLM,统一语言模型预训练用于自然语言理解和生成,Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng Gao, M. Zhou, Hsiao-Wuen Hon,ArXiv,2019,abs/1905.03197

数据集整理

原始整理

原始整理理由 数据集在三个阶段进行了整理:收集段落,以及在这些段落上进行了问题回答的众包和获取额外答案。在SQuAD1.1中,使用Project Nayuki的Wikipedia内部PageRank检索了英文Wikipedia中前10000篇高质量文章,随机从中抽取了536篇文章。从这些文章中提取了单独的段落,剥离了图像、图表、表格,并且丢弃了长度小于500个字符的段落。而SQuAD2.0将SQuAD1.1中的100,000个问题与由众包工人按照可回答问题的模式以及不可回答问题的模式编写的50,000多个不可回答问题结合起来。

交际目标 构建系统不仅在可能时回答问题,而且在段落不支持回答时确定没有答案并放弃回答。

来自不同来源

来源细节 维基百科

语言数据

语言数据是如何获取的? 找到的

它在哪里找到的? 单一网站

覆盖的主题 数据集包含536个文章,涵盖了广泛的主题,从音乐明星到抽象概念。

数据验证 通过众包工人验证

数据预处理 从维基百科的抽样文章中提取了单独的段落,剥离了图像、图表、表格,并且丢弃了长度小于500个字符的段落,并分割为训练集(80%)、开发集(10%)和测试集(10%)。

过滤了数据吗? 算法筛选

过滤条件 为了获取高质量的文章,使用Project Nayuki的Wikipedia内部PageRank获取了英文Wikipedia前10000篇文章,随机从中抽取了536篇文章。

结构化注释

有其他注释吗? 众包

评估者数量 未知

评估者资质 众包工人必须来自接受率达到97%的美国和加拿大地区,至少具有1000次任务完成次数。

训练样本的评估者数 0

测试样本的评估者数 0

注释服务?

哪个注释服务 其他,Amazon Mechanical Turk

注释值 对于 SQuAD 1.1 ,对众包工人的任务是在段落内容上提出并回答最多5个问题。问题必须在文本字段中输入,并且答案必须在段落中高亮显示。对于 SQuAD2.0,每个任务包含一篇完整的 SQuAD 1.1 文章。对于文章中的每个段落,工人被要求提出最多五个问题,这些问题在仅根据段落本身无法回答的情况下,引用段落中的实体,并确保存在一个合理的答案。

存在质量控制吗? 由另一位评估者验证

质量控制细节 对那些在一篇文章上提出了25个或更少问题的工人进行了过滤;此过滤器有助于移除那些在理解任务时遇到困难并因此在完成整篇文章之前退出的工人的噪声。该过滤器适用于 SQuAD2.0 和现有的可回答问题 SQuAD 1.1 中。

同意

是否有同意政策?

私人身份信息(PII)

包含个人身份信息(PII)吗? 不太可能

是否有 PII 识别? 无识别

维护

是否有维护计划?

更广泛的社会背景

对数据集社会影响的先前工作

基于数据的模型的使用情况

对弱势群体需求的影响

是否满足弱势群体的需求?

偏见讨论

有记录的社会偏见吗?

使用数据的注意事项

PII 风险和责任

许可证

已知的技术限制