数据集:

ccdv/mediasum

英文

媒体摘要数据集

MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization 复制的摘要数据集

如果您将以下行添加到变量"summarization_name_mapping"中,则该数据集与Transformers中的 run_summarization.py 脚本兼容:

"ccdv/mediasum": ("document", "summary")

配置

有4个可能的配置:

  • roberta:将文档使用"</s>"连接在一起
  • newline:将文档使用"\n"连接在一起
  • bert:将文档使用"[SEP]"连接在一起
  • list:返回文档列表而不是单个字符串

在配置名称后添加"_prepended",以在每个对话之前添加发言人的姓名和发言内容:发言人:文本。默认为roberta_prepended(与BART兼容)。

数据字段

  • id:论文编号
  • document:包含一组文档正文的字符串/列表
  • summary:包含摘要的字符串

数据拆分

此数据集有3个拆分:训练集、验证集和测试集。

Dataset Split Number of Instances
Train 443596
Validation 10000
Test 10000

引用原始文章

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}