数据集:
ccdv/mediasum
从 MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization 复制的摘要数据集
如果您将以下行添加到变量"summarization_name_mapping"中,则该数据集与Transformers中的 run_summarization.py 脚本兼容:
"ccdv/mediasum": ("document", "summary")
有4个可能的配置:
在配置名称后添加"_prepended",以在每个对话之前添加发言人的姓名和发言内容:发言人:文本。默认为roberta_prepended(与BART兼容)。
此数据集有3个拆分:训练集、验证集和测试集。
Dataset Split | Number of Instances |
---|---|
Train | 443596 |
Validation | 10000 |
Test | 10000 |
@article{zhu2021mediasum, title={MediaSum: A Large-scale Media Interview Dataset for Dialogue Summarization}, author={Zhu, Chenguang and Liu, Yang and Mei, Jie and Zeng, Michael}, journal={arXiv preprint arXiv:2103.06410}, year={2021} }