BOOKSUM: 一组用于长篇叙述摘要的数据集

作者： Wojciech Kryściński ， Nazneen Rajani ， Divyansh Agarwal ， Caiming Xiong ， Dragomir Radev

简介

大多数可用的文本摘要数据集包括缺乏长期因果和时序依赖关系的短型源文档，通常包含强烈的布局和文体偏见。尽管相关，但这些数据集对于未来的文本摘要系统来说提供的挑战有限。我们通过引入BookSum来解决这些问题，这是一组用于长篇叙述摘要的数据集。我们的数据集涵盖了文学领域的源文档，如小说、戏剧和故事，包括三个层次的高度抽象、人工编写的摘要：段落级别、章节级别和全书级别。我们的数据集的领域和结构给摘要系统提供了一系列独特的挑战，包括：处理非常长的文档、非平凡的因果和时序依赖关系以及丰富的话语结构。为了方便未来的工作，我们对我们的数据集进行了多个抽取和抽象摘要模型的训练和评估作为基线。

链接

paper 由 SalesForce Research 提供
GitHub repo

引用

@article{kryscinski2021booksum,
      title={BookSum: A Collection of Datasets for Long-form Narrative Summarization}, 
      author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev},
      year={2021},
      eprint={2105.08209},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

法律声明

下载或使用本代码库中共享的资源（包括任何代码或脚本），即表示您同意以下条款，并且您对资源的使用受到这些条款的限制和约束。

您只能将本代码库中共享的脚本用于研究目的。您不得将脚本用于任何其他目的，其他用途明确禁止。

您将遵守所有与您访问的服务和所收集数据相关的条款和条件，并负责获取所有相关权利。

对于数据来源不作任何陈述或保证。此外，无论基于侵权行为、合同还是其他方面，我们对于使用本代码库中共享的资源或所收集数据而导致的任何损害、损失或费用不承担任何责任。

许可证

该代码在 BSD-3 许可下发布（有关详细信息，请参阅 LICENSE.txt ）。

作者:

kmfoda

数据集大小:

361.39 MB