数据集:
ccdv/govreport-summarization
用于对长文档进行摘要的数据集。改编自 这个 和 这个 数据集。如果您在 Transformers 脚本中添加了这一行到 summarization_name_mapping 变量中,该数据集与 run_summarization.py 脚本兼容。
该数据集有三个划分:训练集、验证集和测试集。使用 RoBERTa 分词器的令牌计数量。
@misc{huang2021efficient, title={Efficient Attentions for Long Document Summarization}, author={Luyang Huang and Shuyang Cao and Nikolaus Parulian and Heng Ji and Lu Wang}, year={2021}, eprint={2104.02112}, archivePrefix={arXiv}, primaryClass={cs.CL} }