数据集:
GEM/squad_v2
语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
crowd-sourced源数据集:
original预印本库:
arxiv:1806.03822许可:
cc-by-sa-4.0可以在此链接找到主要数据卡片: GEM Website
SQuAD2.0 是一个测试模型不仅能回答阅读理解问题,还能在给定的段落中无法回答问题时选择放弃回答的能力的数据集。评估模型在榜单上的性能使用 F1 分数。在 GEM 中,我们使用该数据集用于问题生成任务,模型需要从输入文本中生成类似于 SQuAD 数据集的问题。
可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/squad_v2')
数据加载器可以在此处找到: here
作者:Pranav Rajpurkar,Robin Jia和Percy Liang
网页 Website
下载 Website
论文 Arxiv
联系人姓名 Robin Jia
联系人邮箱 robinjia@stanford.edu
有榜单吗? 是
榜单链接 Website
榜单详情:SQuAD2.0 测试了系统在不仅能回答阅读理解问题,还能在给定的段落中无法回答问题时选择放弃回答的能力上的表现。评估模型的指标是 F1 分数。
多语言? 否
覆盖语言 英语
许可证 cc-by-sa-4.0: 国际创意共享署名-相同方式共享4.0
预期使用方式 构建模型使其了解在给定上下文中无法回答问题。此数据集可用于机器阅读理解、摘录型问答和问题生成等任务。
主要任务 问题生成
交际目标 给定输入段落和答案片段,目标是生成一个询问答案的问题。
数据整理组织类型 学术
数据整理组织 Stanford University
数据集创建者 Pranav Rajpurkar,Robin Jia和Percy Liang
资助 Facebook和NSF研究计划奖学金,奖学金号:DGE-114747
将数据集添加到 GEM 的人是 (Abinaya Mahendiran)[ https://github.com/AbinayaM02] ,Manager Data Science, NEXT Labs ]
数据字段在所有拆分中都相同。
squad_v2
示例实例
{ "gem_id": "gem-squad_v2-validation-1", "id": "56ddde6b9a695914005b9629", "answers": { "answer_start": [94, 87, 94, 94], "text": ["10th and 11th centuries", "in the 10th and 11th centuries", "10th and 11th centuries", "10th and 11th centuries"] }, "context": "\"The Normans (Norman: Nourmands; French: Normands; Latin: Normanni) were the people who in the 10th and 11th centuries gave thei...", "question": "When were the Normans in Normandy?", "title": "Normans" }
原始 SQuAD2.0 数据集只有训练集和验证集(开发集)。训练集进一步划分为测试集并作为 GEM 数据集的一部分。
name | train | validation | test |
---|---|---|---|
squad_v2 | 90403 | 11873 | 39916 |
为什么数据集包含在 GEM 中? SQuAD2.0将鼓励开发具有深层次理解语言能力的阅读理解模型,使其了解自己不懂的内容。它还可以帮助构建更好的答案感知的问题生成模型。
类似的数据集 否
独特的语言覆盖范围 是
数据集测量的能力 推理能力
GEM 修改了该数据集吗? 是
GEM 的修改 其他
附加拆分? 是
拆分信息 作为 GEM 的一部分,原始数据集的训练集(80%)分为两个训练集(90%)和测试集(剩余10%)。目的是为用户提供所有三个拆分以供使用。
测量的模型能力 摘录型问答,问题生成
其他指标
有先前的结果吗? 是
其他评估方法 问题生成使用METEOR、ROUGE-L、BLEU-4
交际目标 构建系统不仅在可能时回答问题,而且在段落不支持回答时确定没有答案并放弃回答。
来自不同来源 是
来源细节 维基百科
语言数据是如何获取的? 找到的
它在哪里找到的? 单一网站
覆盖的主题 数据集包含536个文章,涵盖了广泛的主题,从音乐明星到抽象概念。
数据验证 通过众包工人验证
数据预处理 从维基百科的抽样文章中提取了单独的段落,剥离了图像、图表、表格,并且丢弃了长度小于500个字符的段落,并分割为训练集(80%)、开发集(10%)和测试集(10%)。
过滤了数据吗? 算法筛选
过滤条件 为了获取高质量的文章,使用Project Nayuki的Wikipedia内部PageRank获取了英文Wikipedia前10000篇文章,随机从中抽取了536篇文章。
有其他注释吗? 众包
评估者数量 未知
评估者资质 众包工人必须来自接受率达到97%的美国和加拿大地区,至少具有1000次任务完成次数。
训练样本的评估者数 0
测试样本的评估者数 0
注释服务? 是
哪个注释服务 其他,Amazon Mechanical Turk
存在质量控制吗? 由另一位评估者验证
是否有同意政策? 否
包含个人身份信息(PII)吗? 不太可能
是否有 PII 识别? 无识别
是否有维护计划? 否
基于数据的模型的使用情况 否
是否满足弱势群体的需求? 否
有记录的社会偏见吗? 是