数据集:
kmfoda/booksum
预印本库:
arxiv:2105.08209许可:
bsd-3-clause作者: Wojciech Kryściński , Nazneen Rajani , Divyansh Agarwal , Caiming Xiong , Dragomir Radev
大多数可用的文本摘要数据集包括缺乏长期因果和时序依赖关系的短型源文档,通常包含强烈的布局和文体偏见。尽管相关,但这些数据集对于未来的文本摘要系统来说提供的挑战有限。我们通过引入BookSum来解决这些问题,这是一组用于长篇叙述摘要的数据集。我们的数据集涵盖了文学领域的源文档,如小说、戏剧和故事,包括三个层次的高度抽象、人工编写的摘要:段落级别、章节级别和全书级别。我们的数据集的领域和结构给摘要系统提供了一系列独特的挑战,包括:处理非常长的文档、非平凡的因果和时序依赖关系以及丰富的话语结构。为了方便未来的工作,我们对我们的数据集进行了多个抽取和抽象摘要模型的训练和评估作为基线。
@article{kryscinski2021booksum, title={BookSum: A Collection of Datasets for Long-form Narrative Summarization}, author={Wojciech Kry{\'s}ci{\'n}ski and Nazneen Rajani and Divyansh Agarwal and Caiming Xiong and Dragomir Radev}, year={2021}, eprint={2105.08209}, archivePrefix={arXiv}, primaryClass={cs.CL} }
下载或使用本代码库中共享的资源(包括任何代码或脚本),即表示您同意以下条款,并且您对资源的使用受到这些条款的限制和约束。
该代码在 BSD-3 许可下发布(有关详细信息,请参阅 LICENSE.txt )。