



用于长文档摘要的数据集。从这个文章 repo 进行了改编。请注意,原始数据已进行预分词,因此此数据集返回" ".join(text),并在段落之间添加"\n"。如果您将以下行添加到Transformers的summarization_name_mapping变量中,此数据集与 run_summarization.py 脚本兼容:

"ccdv/pubmed-summarization": ("article", "abstract")


  • id : 文章编号
  • article : 包含论文主体的字符串
  • abstract : 包含论文摘要的字符串



Dataset Split Number of Instances Avg. tokens
Train 119,924 3043 / 215
Validation 6,633 3111 / 216
Test 6,658 3092 / 219


