数据集:
mlsum
我们介绍了MLSUM数据集,这是第一个大规模的多语言摘要数据集。它从在线报纸中获取,包含五种不同语言(即法语、德语、西班牙语、俄语、土耳其语)的1.5+万篇文章/摘要对。与来自CNN/Daily mail的英语报纸一起,收集的数据形成了一个大规模的多语言数据集,为文本摘要领域的新研究方向提供了支持。我们报告了基于最先进系统的跨语言比较分析。这些分析突出了现有偏见,推动了多语言数据集的使用。
“验证集”的示例如下。
{ "date": "01/01/2001", "summary": "A text", "text": "This is a text", "title": "A sample", "topic": "football", "url": "https://www.google.com" }es
“验证集”的示例如下。
{ "date": "01/01/2001", "summary": "A text", "text": "This is a text", "title": "A sample", "topic": "football", "url": "https://www.google.com" }fr
“验证集”的示例如下。
{ "date": "01/01/2001", "summary": "A text", "text": "This is a text", "title": "A sample", "topic": "football", "url": "https://www.google.com" }ru
“训练集”的示例如下。
{ "date": "01/01/2001", "summary": "A text", "text": "This is a text", "title": "A sample", "topic": "football", "url": "https://www.google.com" }tu
“训练集”的示例如下。
{ "date": "01/01/2001", "summary": "A text", "text": "This is a text", "title": "A sample", "topic": "football", "url": "https://www.google.com" }
所有拆分中的数据字段都是相同的。
dename | train | validation | test |
---|---|---|---|
de | 220887 | 11394 | 10701 |
es | 266367 | 10358 | 13920 |
fr | 392902 | 16059 | 15828 |
ru | 25556 | 750 | 757 |
tu | 249277 | 11565 | 12775 |
数据集的使用仅限于非商业研究目的。版权归原始版权持有人所有。请参阅 https://github.com/recitalAI/MLSUM#mlsum
@article{scialom2020mlsum, title={MLSUM: The Multilingual Summarization Corpus}, author={Scialom, Thomas and Dray, Paul-Alexis and Lamprier, Sylvain and Piwowarski, Benjamin and Staiano, Jacopo}, journal={arXiv preprint arXiv:2004.14900}, year={2020} }
感谢 @RachelKer 、 @albertvillanova 、 @thomwolf 添加了这个数据集。