您可以在 GEM Website 发现主数据卡片。
MLSum 是从不同新闻网站抓取的多语言摘要数据集。GEM 版本支持德语和西班牙语子集,并特别收集了用于测试域外泛化的与 COVID 相关文章的挑战集。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/mlsum')
数据加载器可以在 here 找到。
网站N/A
论文 作者Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano
@inproceedings{scialom-etal-2020-mlsum, title = "{MLSUM}: The Multilingual Summarization Corpus", author = "Scialom, Thomas and Dray, Paul-Alexis and Lamprier, Sylvain and Piwowarski, Benjamin and Staiano, Jacopo", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.emnlp-main.647", doi = "10.18653/v1/2020.emnlp-main.647", pages = "8051--8067", abstract = "We present MLSUM, the first large-scale MultiLingual SUMmarization dataset. Obtained from online newspapers, it contains 1.5M+ article/summary pairs in five different languages {--} namely, French, German, Spanish, Russian, Turkish. Together with English news articles from the popular CNN/Daily mail dataset, the collected data form a large scale multilingual dataset which can enable new research directions for the text summarization community. We report cross-lingual comparative analyses based on state-of-the-art systems. These highlight existing biases which motivate the use of a multi-lingual dataset.", }联系人姓名
Thomas Scialom
联系人电子邮件{thomas,paul-alexis,jacopo}@recital.ai, {sylvain.lamprier,benjamin.piwowarski}@lip6.fr
是否有排行榜?否
是
涵盖的方言每种语言只有一个方言,德语是高地德语,西班牙语是卡斯蒂利亚语。
涵盖的语言德语、西班牙语、卡斯蒂利亚语
语言归属德语文章是从 Süddeutsche Zeitung 爬取的,西班牙语文章是从 El Pais 爬取的。
许可证其他:其他许可证
预期使用该数据集的预期使用是通过添加其他语言来扩充现有的英语新闻摘要数据集。
附加许可证信息限于非商业研究目的。
主要任务摘要
交际目标演讲者需要用与输入文章相同的语言生成高质量摘要。
其他
收藏组织CNRS、Sorbonne Université、reciTAL
数据集创建者Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano
资金未指定资金信息。
谁将数据集添加到 GEM 中?原始数据卡片由 Pedro Henrique Martins(电信研究所)和 Sebastian Gehrmann(谷歌研究)编写,Laura Perez-Beltrachini(爱丁堡大学)创建了 COVID 挑战集,Juan Diego Rodriguez(UT Austin)进行了数据清理。
数据字段为:
结构遵循先前发布的数据集。添加了主题和标题字段,以便进行其他任务,如标题生成和主题检测。
如何选择标签?它们是从同一网站上抓取的人工编写的摘要或摘要。
示例实例{ 'date': '00/01/2010', 'gem_id': 'mlsum_de-train-2', 'gem_parent_id': 'mlsum_de-train-2', 'references': [], 'target': 'Oskar Lafontaine gibt den Parteivorsitz der Linken ab - und seine Kollegen streiten, wer ihn beerben soll. sueddeutsche.de stellt die derzeit aussichtsreichsten Anwärter für Führungsaufgaben vor. Mit Vote.', 'text': 'Wenn an diesem Montag die Landesvorsitzenden der Linken über die Nachfolger der derzeitigen Chefs Lothar Bisky und Oskar Lafontaine sowie des Bundesgeschäftsführers Dietmar Bartsch beraten, geht es nicht nur darum, wer die Partei führen soll. Es geht auch um die künftige Ausrichtung und Stärke einer Partei, die vor allem von Lafontaine zusammengehalten worden war. Ihm war es schließlich vor fünf Jahren gelungen, aus der ostdeutschen PDS und der westedeutschen WASG eine Partei zu formen. Eine Partei allerdings, die zerrissen ist in Ost und West, in Regierungswillige und ewige Oppositionelle, in Realos und Ideologen, in gemäßigte und radikale Linke. Wir stellen mögliche Kandidaten vor. Stimmen Sie ab: Wen halten Sie für geeignet und wen für unfähig? Kampf um Lafontaines Erbe: Gregor Gysi Sollte überhaupt jemand die Partei alleine führen, wie es sich viele Ostdeutsche wünschen, käme dafür wohl nur der 62-jährige Gregor Gysi in Betracht. Er ist nach Lafontaine einer der bekanntesten Politiker der Linken und derzeit Fraktionsvorsitzender der Partei im Bundestag. Allerdings ist der ehemalige PDS-Vorsitzende und Rechtsanwalt nach drei Herzinfarkten gesundheitlich angeschlagen. Wahrscheinlich wäre deshalb, dass er die zerstrittene Partei nur übergangsweise führt. Doch noch ist nicht klar, ob eine Person allein die Partei führen soll oder eine Doppelspitze. Viele Linke wünschen sich ein Duo aus einem westdeutschen und einem ostdeutschen Politiker, Mann und Frau. Foto: Getty Images', 'title': 'Personaldebatte bei der Linken - Wer kommt nach Lafontaine?', 'topic': 'politik', 'url': 'https://www.sueddeutsche.de/politik/personaldebatte-bei-der-linken-wer-kommt-nach-lafontaine-1.70041' }数据划分
原始数据集的统计信息如下:
| 数据集 | 训练集 | 验证集 | 测试集 | 平均文章长度 | 平均摘要长度 | | :---- | :---: | ---: | ---: | ---: | ---: || 德语 | 242,982 | 220,887 | 11,394 | 10,701 | 570.6(字) | 30.36(字) || 西班牙语 | 290,645 | 266,367 | 10,358 | 13,920 | 800.5(字) | 20.71(字) |
清理后的数据集统计信息如下:
| 数据集 | 训练集 | 验证集 | 测试集 || :--- | :----: | :---: | :---: || 德语 | 242,835 | 220,887 | 11,392 | 10,695 || 西班牙语 | 283,228 |259,886 | 9,977 | 13,365 |
COVID 挑战集包含 5058 个例子(德语)和 1938 个例子(西班牙语)。
分割标准训练集包含从 2010 年到 2018 年的数据。数据集的 2019 年数据(约占数据集的 10%)用于验证(截至 5 月)和测试(5 月至 2019 年 12 月)。
数据集中的一些主题较少出现(例如,德语中的金融新闻和西班牙语中的电视节目)。
作为第一个大规模多语言摘要数据集,它可以评估超越英语的摘要模型。
类似的数据集是
唯一的语言覆盖范围是
与其他 GEM 数据集的区别在我们的配置中,数据集完全不是英语。
数据集测量的能力内容选择,内容规划,实现
是
GEM 的修改删除数据点,添加数据点
修改详情对原始数据集的修改如下:
是
分割信息对于所选的两种语言(德语和西班牙语),我们编制了时间偏移的测试数据,这些数据是以 COVID19 相关的关键词形式的新文章。我们收集了与原始 MLSUM 数据集相同的德语和西班牙语文章(El Pais 和 Süddeutsche Zeitung)。我们使用了为重新创建 MLSUM datasets 提供的脚本。德语的新挑战测试集包含 5058 个实例,西班牙语的挑战测试集包含 1938 个实例。
我们还随机选择了 500 个训练和验证数据点作为附加的挑战集,以衡量过拟合情况。
分割动机对未见过主题的泛化能力。
内容选择,内容规划,实现
指标METEOR,ROUGE,其他:其他指标
其他指标新颖性:在源文章中不包含的生成的 n-gram 数量。
提出的评估方法ROUGE 和 METEOR 都使用 n-gram 重叠度量,侧重于召回率,是标准的摘要评估指标。新颖性通常与它们一起报告,以描述模型与其输入的偏离程度。
是否有先前的结果?是
其他评估方法GEM 基准结果( https://gem-benchmark.com/results )报告了包括词汇重叠度量以及语义度量(如 BLEURT 和 BERT-Score)在内的各种度量。
目标是创建一个多语言新闻摘要数据集,与 XSum 或 CNN/DM 等流行的英语数据集格式相似。
交际目标演讲者需要用与输入文章相同的语言生成高质量摘要。
来自不同来源是
来源详细信息www.lemonde.fr www.sueddeutsche.de www.elpais.com www.mk.ru www.internethaber.com
找到
它是在哪里找到的?多个网站
语言制作人语言制作者是专业记者。
涵盖的主题原始数据集的 4 种语言中的 4 种报告了它们的主题(土耳其语除外),分布在不同的来源之间有所不同。德语中的主导主题是政治、体育、经济。西班牙语中的主导主题是 actualidad(时事新闻)和 opinion(观点)。法语和俄语也不同,但在 GEM 版本中我们省略了这些语言。
数据验证未经验证
是否过滤了数据?通过算法进行过滤
过滤准则原始数据集中仅应用了一个过滤器:删除所有长度少于 50 个单词或摘要少于 10 个单词的文章。
GEM 版本还应用了 langID 过滤器,以确保文章处于正确的语言中。
没有
注释服务?没有
没有
使用数据的理由版权归原始数据创建者所有,使用权限仅限于非商业用途。
是/很可能
PII 的类别敏感信息,通用 PII
是否有 PII 标识?没有标识
没有
没有
没有
没有