媒体摘要数据集

从 MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization 复制的摘要数据集

如果您将以下行添加到变量"summarization_name_mapping"中，则该数据集与Transformers中的 run_summarization.py 脚本兼容：

"ccdv/mediasum": ("document", "summary")

配置

有4个可能的配置：

roberta：将文档使用"</s>"连接在一起
newline：将文档使用"\n"连接在一起
bert：将文档使用"[SEP]"连接在一起
list：返回文档列表而不是单个字符串

在配置名称后添加"_prepended"，以在每个对话之前添加发言人的姓名和发言内容：发言人：文本。默认为roberta_prepended（与BART兼容）。

数据字段

id：论文编号
document：包含一组文档正文的字符串/列表
summary：包含摘要的字符串

数据拆分

此数据集有3个拆分：训练集、验证集和测试集。

Dataset Split	Number of Instances
Train	443596
Validation	10000
Test	10000

引用原始文章

@article{zhu2021mediasum,
  title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization},
  author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael},
  journal={arXiv preprint arXiv:2103.06410},
  year={2021}
}

作者:

ccdv

数据集大小:

1.41 GB