英文

SCROLLS 数据集卡片

概述

SCROLLS 是一个需要在长文本中进行信息合成的数据集套件。该基准测试包括多个领域的七个自然语言任务,包括摘要、问答和自然语言推断。

排行榜

SCROLLS 基准测试的排行榜可以在 here 找到。

任务

SCROLLS 包括以下任务:

GovReport ( Huang et al., 2021 )

GovReport 是一份总结报告的摘要数据集,报告涉及国会研究局和美国政府问责办公室发布的各种国家政策问题。每个文档都与手写的执行摘要配对。相比其他知名的长文档摘要数据集,GovReport 的文档要长大约1.5倍和2.5倍,例如,GovReport 的文档与 Arxiv 和 PubMed 的文档相比,长度分别长约1.5倍和2.5倍。

SummScreenFD ( Chen et al., 2021 )

SummScreenFD 是一个电视剧领域的摘要数据集(例如 Friends、权力的游戏)。给定一集的剧本,目标是生成该集的摘要。原始数据集分为两个补充子集,基于社区贡献剧本的来源进行划分。对于 SCROLLS,我们使用 ForeverDreaming(FD)子集,因为它包括 88 个不同的节目,这使其成为与 TV MegaSite(TMS)子集相比更多样化的选择,后者只有 10 个节目。来自 ForeverDreaming 剧本的社区创作的摘要是从英文维基百科和 TVMaze 收集而来的。

QMSum ( Zhong et al., 2021 )

QMSum 是一个基于查询的摘要数据集,包含多个领域的 232 个会议记录。该语料库涵盖了国际计算机科学研究所的学术团体会议及其摘要、用于设计遥控器的工业产品会议,以及威尔士和加拿大议会的委员会会议,这些会议涉及各种公共政策问题。注释者的任务是撰写关于会议内容的广泛概述的查询,以及关于特定主题或决策的具体问题,同时确保回答每个查询所需的相关文本至少包含 200 个单词或 10 个轮次。

NarrativeQA ( Kočiský et al., 2018 )

NarrativeQA(Kočiský 等人,2021)是一个基于问题回答的数据集,涵盖了来自 Gutenberg 项目和不同网站的电子书和电影剧本。注释者们获得了来自维基百科的这些书籍和剧本的摘要,并被要求生成问题-答案对,每本书和剧本大约有 30 个问题和答案。他们被鼓励使用自己的语言而不是直接复制,并避免提问是非问题或者与演员阵容有关的问题。然后,另一个注释者回答了每个问题,为每个问题提供两个参考答案(除非两个答案相同)。

Qasper ( Dasigi et al., 2021 )

Qasper 是一个基于 NLP 论文的问答数据集,论文来自语义学者开放研究语料库(S2ORC)。问题是由阅读论文标题和摘要的 NLP 从业者编写的,而另一组 NLP 从业者则根据整篇文档注释了答案。Qasper 包含抽象、提取和是/否以及无法回答的问题。

QuALITY ( Pang et al., 2021 )

QuALITY 是一个多项选择问答数据集,来源于古登堡计划、美国全国开放语料库等。经验丰富的作者编写了问题和干扰项,并被激励着编写可回答的、明确的问题,以使人工注释者必须阅读给定文档的大部分内容才能正确回答问题。然后,参考答案通过注释者和作者答案之间的多数表决计算得出。为了衡量问题的难度,Pang 等人进行了速度验证流程,要求另一组注释者在短时间内只浏览文档来回答问题。因此,在 QuALITY 中,有50%的问题被标记为难问题,即在速度验证环境中,大多数注释者选择了错误答案。

ContractNLI ( Koreeda and Manning, 2021 )

Contract NLI 是一个法律领域的自然语言推断数据集。给定一份保密协议(前提),任务是预测是否可以从合同中得出特定的法律陈述(假设)是否成立、不成立(中性)或不能得出(矛盾)。NDAs 是使用电子数据采集、分析和检索系统(EDGAR)和谷歌进行简单过滤后手动选择的。该数据集包含了共计 607 份合同和 17 个独特的假设,共计 10,319 个示例。

数据字段

基准测试中的所有数据集都具有相同的输入输出格式

  • 输入: 字符串特征。输入文档。
  • 输出: 字符串特征。目标。
  • id: 字符串特征。每个输入的唯一标识。
  • pid: 字符串特征。每个输入输出对的唯一标识(可能与 NarrativeQA 和 Qasper 中的'id'不同,因为那里可能有多个有效目标)。

引用

如果您使用 SCROLLS 数据,请确保引用所有原始数据集论文。[ bibtex ]

@inproceedings{shaham-etal-2022-scrolls,
    title = "{SCROLLS}: Standardized {C}ompa{R}ison Over Long Language Sequences",
    author = "Shaham, Uri  and
      Segal, Elad  and
      Ivgi, Maor  and
      Efrat, Avia  and
      Yoran, Ori  and
      Haviv, Adi  and
      Gupta, Ankit  and
      Xiong, Wenhan  and
      Geva, Mor  and
      Berant, Jonathan  and
      Levy, Omer",
    booktitle = "Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing",
    month = dec,
    year = "2022",
    address = "Abu Dhabi, United Arab Emirates",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.emnlp-main.823",
    pages = "12007--12021",
}