英文

SCROLLS 数据集卡片

概述

该数据集基于 SCROLLS 数据集 ( paper )、 SQuAD 1.1 数据集和 HotpotQA 数据集。它不包含任何未发布的数据,但包括了 Efficient Long-Text Understanding with Short-Text Models 论文所需的配置。

任务

包括以下任务:

GovReport ( Huang et al., 2021 )

GovReport 是一个摘要数据集,包含了国内各种国家政策问题的报告,由国会研究局和美国政府问责办公室发布,每个文档都附带有手写的行政摘要。与其他流行的长文本摘要数据集相比,GovReport 的报告和摘要更长;例如,GovReport 的文档长度大约是Arxiv和PubMed中的文档长度的1.5倍和2.5倍。

SummScreenFD ( Chen et al., 2021 )

SummScreenFD 是一个电视剧领域的摘要数据集(例如《老友记》、《权力的游戏》)。给定一个特定剧集的剧本,目标是生成该剧集的回顾。原始数据集根据社区贡献的剧本来源被分为两个互补的子集。对于 SCROLLS,我们使用了 ForeverDreaming (FD) 子集,因为它包含了88部不同的电视剧,相比之下,TV MegaSite (TMS) 子集只有10部电视剧。ForeverDreaming剧本的社区撰写的回顾是从英文维基百科和TVMaze收集的。

QMSum ( Zhong et al., 2021 )

QMSum 是一个基于查询的摘要数据集,包含了来自多个领域的232个会议记录。该语料库涵盖了国际计算机科学研究所的学术小组会议及其摘要、设计遥控器的工业产品会议,以及威尔士和加拿大议会的委员会会议,涉及各种公共政策问题。注释员的任务是撰写关于会议整体内容以及特定主题或决策的具体问题,同时确保回答每个问题的相关文本至少包括200个单词或10个回合。

NarrativeQA ( Kočiský et al., 2021 )

NarrativeQA (Kočiský et al., 2021) 是一个基于整本书籍来回答问题的问答数据集,书籍来自Project Gutenberg和其他网站的电影剧本。注释员获得从维基百科获取的书籍和剧本的摘要,并被要求生成问答对,每本书籍和剧本大约有30个问题和答案。他们被鼓励使用自己的语言而不是抄袭,并避免问是/否的问题或有关演员阵容的问题。然后,另一个注释员回答了每个问题,为每个问题提供了两个参考答案(除非两个答案相同)。

Qasper ( Dasigi et al., 2021 )

Qasper 是一个基于NLP论文的问答数据集,这些论文是从Semantic Scholar Open Research Corpus (S2ORC)中过滤得到的。问题是由阅读论文标题和摘要的NLP从业者编写的,而另一组NLP从业者则根据整个文档为问题提供答案。Qasper包含抽象式、提取式和是/否的问题,以及无法回答的问题。

QuALITY ( Pang et al., 2021 )

QuALITY 是一个多项选择问答数据集,来源于Project Gutenberg、Open American National Corpus等文章和故事。有经验的作者编写了问题和干扰项,并且受激励编写可回答的、明确无歧义的问题,以便人类注释员必须阅读给定文档的大部分内容才能正确回答。然后,根据注释员和作者答案之间的多数投票来计算参考答案。为了衡量问题的难度,Pang等人进行了速度验证过程,要求另一组注释员在短时间内只阅读一部分文档来回答问题。结果,QuALITY 中的50%问题被标记为困难,即在速度验证设置中大多数注释员选择了错误答案。

ContractNLI ( Koreeda and Manning, 2021 )

Contract NLI 是一个法律领域的自然语言推理数据集。给定一个保密协议(前提),任务是预测某个法律陈述(假设)从合同中是否可推导出、不可推导出(中立)或不能推导出(矛盾)。NDAs从电子数据收集、分析和检索系统 (EDGAR) 和谷歌中经过简单筛选手动选择。该数据集共包含607个合同和17个唯一的假设,从中生成了10,319个示例。

SQuAD 1.1 ( Rajpurkar et al., 2016 )

斯坦福阅读理解数据集 (Stanford Question Answering Dataset,SQuAD) 是一个阅读理解数据集,由众包工人对一系列维基百科文章提出问题,每个问题的答案是对应阅读材料中的一个文本段落或不可回答。

HotpotQA ( Yang et al., 2018 )

HotpotQA 是一个包含113,000个基于维基百科的问题-答案对的数据集,具有以下四个关键特点:(1)问题需要在多个支持材料上进行查找和推理以回答;(2)问题多样且不受任何现有知识库或知识模式的限制;(3)我们提供了句子级别的支持事实以进行推理,使得问答系统能够借助强有力的监督来进行推理并解释预测;(4)我们提供了一种新型的事实比较问题类型,以测试问答系统提取相关事实和进行必要比较的能力。

数据字段

所有数据集遵循相同的输入输出格式

  • input : 字符串特征,输入文档。
  • input_prefix : 可选的字符串特征,适用于包含前缀(例如问题)的数据集。
  • output : 字符串特征,目标。
  • id : 字符串特征,每个输入独一无二。
  • pid : 字符串特征,每个输入输出对独一无二(在 NarrativeQA 和 Qasper 中可能与 'id' 不同,因为有多个有效目标)。

包含 input_prefix 的数据集是:

  • SQuAD - 问题
  • HotpotQA - 问题
  • qmsum - 查询
  • qasper - 问题
  • narrative_qa - 问题
  • quality - 问题 + 四个选项
  • contract_nli - 假设

控制实验

为了测试 SLED 的多个性质,我们修改了 SQuAD 1.1 ( Rajpurkar et al., 2016 ) 和 HotpotQA ( Yang et al., 2018 ),创建了几个控制实验设置。通过以下配置可以访问这些设置:

  • squad - 包含 SQuAD 1.1 的原始版本(问题 + 段落)
  • squad_ordered_distractors - 对于每个示例,将随机选择的9个干扰段落连接在一起(用 '\n' 分隔)
  • squad_shuffled_distractors - 对于每个示例,将随机选择的9个干扰段落添加进来(用 '\n' 分隔),然后随机打乱这10个段落
  • hotpotqa - HotpotQA 的干净版本,每个输入只包含两个黄金段落(用 '\n' 分隔)
  • hotpotqa_second_only - 每个示例中,输入只包含第二个黄金段落

引用

如果您使用此数据集,请确保引用所有原始数据集论文以及 SCROLLS。[ bibtex ]

@inproceedings{Ivgi2022EfficientLU,
  title={Efficient Long-Text Understanding with Short-Text Models},
  author={Maor Ivgi and Uri Shaham and Jonathan Berant},
  year={2022}
}