数据集:
tau/zero_scrolls
子任务:
multiple-choice-qa语言:
enZeroSCROLLS 是一个用于自然语言理解的零样例基准。验证集每个任务只包含约20个示例,仅用于直观检查。
ZeroSCROLLS 基准的排行榜可以在 here 找到。
ZeroSCROLLS 包含以下任务:
GovReport( Huang et al., 2021 )GovReport 是一个汇总数据集,涵盖了国会研究局和美国政府问责局发布的有关各种国家政策问题的报告,每个文档都与手写的执行摘要配对。与其他流行的长文档汇总数据集相比,该数据集的报告和摘要更长;例如,与 Arxiv 和 PubMed 中的文档相比,GovReport 的文档长度分别大约是其等效文档的1.5倍和2.5倍。
SummScreenFD( Chen et al., 2022 )SummScreenFD 是一个电视节目领域的汇总数据集(例如《老友记》、《权力的游戏》)。给定特定集数的剧本,目标是生成该集数的节目总结。原始数据集根据社区贡献的剧本来源分为两个互补子集。对于 SCROLLS,我们使用 ForeverDreaming(FD)子集,因为它包含了88个不同的节目,相比仅有10个节目的 TMS 子集来说,它更具多样性。ForeverDreaming 剧本的社区作者总结是从英文维基百科和 TVMaze 收集的。
QMSum( Zhong et al., 2021 )QMSum 是一个基于查询的摘要数据集,包含多个领域的232个会议记录。该语料库涵盖了国际计算机科学研究所的学术小组会议及其摘要、用于设计遥控器的工业产品会议,以及威尔士和加拿大议会的委员会会议,涉及各种公共政策问题。注释员的任务是撰写关于会议内容的广泛查询,以及关于特定主题或决策的具体问题,同时确保回答每个查询所需的相关文本至少包含200个字或10个回合。
SQuALITY( Wang et al., 2022 )SQuALITY(Wang et al., 2022)是一个以问题为焦点的汇总数据集,给定来自 Project Gutenberg 的故事,任务是根据引导问题对故事或其方面进行摘要。问题和摘要是原始的众包数据;经验丰富的作家指导设计需要阅读故事的重要部分才能正确回答的问题。
Qasper( Dasigi et al., 2021 )Qasper 是一个基于 NLP 论文的问答数据集,该论文经过从语义学者开放研究语料库中过滤得到。问题是由阅读论文标题和摘要的 NLP 从业者编写的,而另一组 NLP 从业者根据整个文档对答案进行注释。Qasper 包含抽象、提取和是/否问题,以及无法回答的问题。
NarrativeQA( Kočiský et al., 2018 )NarrativeQA(Kočiský et al., 2021)是一个建立在 Project Gutenberg 的整本书和来自不同网站的电影剧本上的问答数据集。注释员根据从维基百科获取的书籍和剧本摘要生成了问题-答案对,每本书和剧本大约有30个问题和答案。他们被鼓励使用自己的言辞,避免抄袭,并避免问关于演员阵容的是/否问题或问题。然后,一个额外的注释员回答了每个问题,为每个问题提供了两个参考答案(除非两个答案相同)。
QuALITY( Pang et al., 2022 )QuALITY 是一个基于 Project Gutenberg、Open American National Corpus 等来源的文章和故事的选择题问答数据集。经验丰富的作家编写了问题和干扰项,并有激励措施确保编写可回答、明确无歧义的问题,为了正确回答这些问题,人工注释者必须阅读给定文档的大部分内容。然后,通过注释者和作家答案的多数投票计算参考答案。为了衡量问题的难度,庞等人进行了一个速度验证过程,在这个过程中,另一组注释者被要求在短时间内浏览文档以回答问题。结果,QuALITY 中50%的问题被标记为困难,即速度验证环境下大多数注释者选择了错误答案。
MuSiQue( Trivedi et al., 2022 )MuSiQue 是一个多跳问答数据集,其中输入是20个维基百科段落和一个需要在不同段落之间多次跳转的问题。在原始数据集中,每个问题还有一个无法回答的对应问题,段落中没有正确答案。
SpaceDigest(New)SpaceDigest 是一个新的情感聚合任务。给定 Space 数据集(Angelidis et al., 2021)中的50个酒店评论(不包含评分),任务是确定正面评论的百分比。
BookSumSort(New)BookSumSort 是一个基于 BookSum 数据集(Kry ́sci ́nski 等,2022)的新任务,该数据集包含来自各种来源的小说、剧本和长诗的章节(或部分)摘要。给定一个打乱的章节摘要列表,任务是根据 BookSum 中的原始摘要顺序对其进行重新排序。
大多数数据集具有相同的输入-输出格式。
包含多个文档的数据集(例如 MuSiQue、SpaceDigest 和 BookSumSort)还具有以下特征:
如果您使用 ZeroSCROLLS 数据,请务必引用所有原始数据集的论文。 [ bibtex ]
@misc{shaham2023zeroscrolls, title={ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding}, author={Uri Shaham and Maor Ivgi and Avia Efrat and Jonathan Berant and Omer Levy}, year={2023}, eprint={2305.14196}, archivePrefix={arXiv}, primaryClass={cs.CL} }