数据集:

ccdv/govreport-summarization

英文

GovReport 数据集用于摘要

用于对长文档进行摘要的数据集。改编自 这个这个 数据集。如果您在 Transformers 脚本中添加了这一行到 summarization_name_mapping 变量中,该数据集与 run_summarization.py 脚本兼容。

数据字段

  • id: 文章 ID
  • report: 包含报告正文的字符串
  • summary: 包含报告摘要的字符串

数据划分

该数据集有三个划分:训练集、验证集和测试集。使用 RoBERTa 分词器的令牌计数量。

引用原始文章

@misc{huang2021efficient,
      title={Efficient Attentions for Long Document Summarization}, 
      author={Luyang Huang and Shuyang Cao and Nikolaus Parulian and Heng Ji and Lu Wang},
      year={2021},
      eprint={2104.02112},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
    }