数据集:

GEM/mlsum

语言:

de es

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

许可:

other
英文

GEM/mlsum 数据集卡片

主数据卡片链接

您可以在 GEM Website 发现主数据卡片。

数据集摘要

MLSum 是从不同新闻网站抓取的多语言摘要数据集。GEM 版本支持德语和西班牙语子集,并特别收集了用于测试域外泛化的与 COVID 相关文章的挑战集。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/mlsum')

数据加载器可以在 here 找到。

网站

N/A

论文

ACL Anthology

作者

Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano

数据集概述

查找数据及其文档的位置

下载

Gitlab

论文

ACL Anthology

BibTex
@inproceedings{scialom-etal-2020-mlsum,
    title = "{MLSUM}: The Multilingual Summarization Corpus",
    author = "Scialom, Thomas  and
      Dray, Paul-Alexis  and
      Lamprier, Sylvain  and
      Piwowarski, Benjamin  and
      Staiano, Jacopo",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    month = nov,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.emnlp-main.647",
    doi = "10.18653/v1/2020.emnlp-main.647",
    pages = "8051--8067",
    abstract = "We present MLSUM, the first large-scale MultiLingual SUMmarization dataset. Obtained from online newspapers, it contains 1.5M+ article/summary pairs in five different languages {--} namely, French, German, Spanish, Russian, Turkish. Together with English news articles from the popular CNN/Daily mail dataset, the collected data form a large scale multilingual dataset which can enable new research directions for the text summarization community. We report cross-lingual comparative analyses based on state-of-the-art systems. These highlight existing biases which motivate the use of a multi-lingual dataset.",
}
联系人姓名

Thomas Scialom

联系人电子邮件

{thomas,paul-alexis,jacopo}@recital.ai, {sylvain.lamprier,benjamin.piwowarski}@lip6.fr

是否有排行榜?

语言和预期使用

多语言?

涵盖的方言

每种语言只有一个方言,德语是高地德语,西班牙语是卡斯蒂利亚语。

涵盖的语言

德语、西班牙语、卡斯蒂利亚语

语言归属

德语文章是从 Süddeutsche Zeitung 爬取的,西班牙语文章是从 El Pais 爬取的。

许可证

其他:其他许可证

预期使用

该数据集的预期使用是通过添加其他语言来扩充现有的英语新闻摘要数据集。

附加许可证信息

限于非商业研究目的。

主要任务

摘要

交际目标

演讲者需要用与输入文章相同的语言生成高质量摘要。

收费

馆藏组织类型

其他

收藏组织

CNRS、Sorbonne Université、reciTAL

数据集创建者

Thomas Scialom, Paul-Alexis Dray, Sylvain Lamprier, Benjamin Piwowarski, Jacopo Staiano

资金

未指定资金信息。

谁将数据集添加到 GEM 中?

原始数据卡片由 Pedro Henrique Martins(电信研究所)和 Sebastian Gehrmann(谷歌研究)编写,Laura Perez-Beltrachini(爱丁堡大学)创建了 COVID 挑战集,Juan Diego Rodriguez(UT Austin)进行了数据清理。

数据集结构

数据字段

数据字段为:

  • 文本:原始文章(字符串)。
  • 摘要:输出的摘要(字符串)。
  • 主题:文章的主题(字符串)。
  • URL:文章的网址(字符串)。
  • 标题:文章的标题(字符串)。
  • 日期:文章的日期(字符串)。
结构原因

结构遵循先前发布的数据集。添加了主题和标题字段,以便进行其他任务,如标题生成和主题检测。

如何选择标签?

它们是从同一网站上抓取的人工编写的摘要或摘要。

示例实例
{
 'date': '00/01/2010',
 'gem_id': 'mlsum_de-train-2',
 'gem_parent_id': 'mlsum_de-train-2',
 'references': [],
 'target': 'Oskar Lafontaine gibt den Parteivorsitz der Linken ab - und seine Kollegen streiten, wer ihn beerben soll. sueddeutsche.de stellt die derzeit aussichtsreichsten Anwärter für Führungsaufgaben vor. Mit Vote.',
 'text': 'Wenn an diesem Montag die Landesvorsitzenden der Linken über die Nachfolger der derzeitigen Chefs Lothar Bisky und Oskar Lafontaine sowie des Bundesgeschäftsführers Dietmar Bartsch beraten, geht es nicht nur darum, wer die Partei führen soll. Es geht auch um die künftige Ausrichtung und Stärke einer Partei, die vor allem von Lafontaine zusammengehalten worden war. Ihm war es schließlich vor fünf Jahren gelungen, aus der ostdeutschen PDS und der westedeutschen WASG eine Partei zu formen. Eine Partei allerdings, die zerrissen ist in Ost und West, in Regierungswillige und ewige Oppositionelle, in Realos und Ideologen, in gemäßigte und radikale Linke. Wir stellen mögliche Kandidaten vor. Stimmen Sie ab: Wen halten Sie für geeignet und wen für unfähig? Kampf um Lafontaines Erbe: Gregor Gysi Sollte überhaupt jemand die Partei alleine führen, wie es sich viele Ostdeutsche wünschen, käme dafür wohl nur der 62-jährige Gregor Gysi in Betracht. Er ist nach Lafontaine einer der bekanntesten Politiker der Linken und derzeit Fraktionsvorsitzender der Partei im Bundestag. Allerdings ist der ehemalige PDS-Vorsitzende und Rechtsanwalt nach drei Herzinfarkten gesundheitlich angeschlagen. Wahrscheinlich wäre deshalb, dass er die zerstrittene Partei nur übergangsweise führt. Doch noch ist nicht klar, ob eine Person allein die Partei führen soll oder eine Doppelspitze. Viele Linke wünschen sich ein Duo aus einem westdeutschen und einem ostdeutschen Politiker, Mann und Frau. Foto: Getty Images',
 'title': 'Personaldebatte bei der Linken - Wer kommt nach Lafontaine?',
 'topic': 'politik',
 'url': 'https://www.sueddeutsche.de/politik/personaldebatte-bei-der-linken-wer-kommt-nach-lafontaine-1.70041'
}
数据划分

原始数据集的统计信息如下:

| 数据集 | 训练集 | 验证集 | 测试集 | 平均文章长度 | 平均摘要长度 | | :---- | :---: | ---: | ---: | ---: | ---: || 德语 | 242,982 | 220,887 | 11,394 | 10,701 | 570.6(字) | 30.36(字) || 西班牙语 | 290,645 | 266,367 | 10,358 | 13,920 | 800.5(字) | 20.71(字) |

清理后的数据集统计信息如下:

| 数据集 | 训练集 | 验证集 | 测试集 || :--- | :----: | :---: | :---: || 德语 | 242,835 | 220,887 | 11,392 | 10,695 || 西班牙语 | 283,228 |259,886 | 9,977 | 13,365 |

COVID 挑战集包含 5058 个例子(德语)和 1938 个例子(西班牙语)。

分割标准

训练集包含从 2010 年到 2018 年的数据。数据集的 2019 年数据(约占数据集的 10%)用于验证(截至 5 月)和测试(5 月至 2019 年 12 月)。

数据集中的一些主题较少出现(例如,德语中的金融新闻和西班牙语中的电视节目)。

GEM 中的数据集

加入 GEM 的原因

为什么在 GEM 中?

作为第一个大规模多语言摘要数据集,它可以评估超越英语的摘要模型。

类似的数据集

唯一的语言覆盖范围

与其他 GEM 数据集的区别

在我们的配置中,数据集完全不是英语。

数据集测量的能力

内容选择,内容规划,实现

GEM 特定的策划

为 GEM 修改过?

GEM 的修改

删除数据点,添加数据点

修改详情

对原始数据集的修改如下:

  • 由于版权限制,从数据集的 5 种语言中选择了 2 种语言(西班牙语和德语)。
  • 删除重复文章。
  • 手动删除文章摘要对中与文章无关的摘要。
  • 删除在不同语言中编写的文章摘要对(使用 langdetect 库进行检测)。
有其他分割?

分割信息

对于所选的两种语言(德语和西班牙语),我们编制了时间偏移的测试数据,这些数据是以 COVID19 相关的关键词形式的新文章。我们收集了与原始 MLSUM 数据集相同的德语和西班牙语文章(El Pais 和 Süddeutsche Zeitung)。我们使用了为重新创建 MLSUM datasets 提供的脚本。德语的新挑战测试集包含 5058 个实例,西班牙语的挑战测试集包含 1938 个实例。

我们还随机选择了 500 个训练和验证数据点作为附加的挑战集,以衡量过拟合情况。

分割动机

对未见过主题的泛化能力。

开始完成任务

之前的结果

以前的结果

测量的模型能力

内容选择,内容规划,实现

指标

METEOR,ROUGE,其他:其他指标

其他指标

新颖性:在源文章中不包含的生成的 n-gram 数量。

提出的评估方法

ROUGE 和 METEOR 都使用 n-gram 重叠度量,侧重于召回率,是标准的摘要评估指标。新颖性通常与它们一起报告,以描述模型与其输入的偏离程度。

是否有先前的结果?

其他评估方法

GEM 基准结果( https://gem-benchmark.com/results )报告了包括词汇重叠度量以及语义度量(如 BLEURT 和 BERT-Score)在内的各种度量。

数据集策划

原始策划

原始策划原理

目标是创建一个多语言新闻摘要数据集,与 XSum 或 CNN/DM 等流行的英语数据集格式相似。

交际目标

演讲者需要用与输入文章相同的语言生成高质量摘要。

来自不同来源

来源详细信息

www.lemonde.fr www.sueddeutsche.de www.elpais.com www.mk.ru www.internethaber.com

语言数据

如何获取语言数据?

找到

它是在哪里找到的?

多个网站

语言制作人

语言制作者是专业记者。

涵盖的主题

原始数据集的 4 种语言中的 4 种报告了它们的主题(土耳其语除外),分布在不同的来源之间有所不同。德语中的主导主题是政治、体育、经济。西班牙语中的主导主题是 actualidad(时事新闻)和 opinion(观点)。法语和俄语也不同,但在 GEM 版本中我们省略了这些语言。

数据验证

未经验证

是否过滤了数据?

通过算法进行过滤

过滤准则

原始数据集中仅应用了一个过滤器:删除所有长度少于 50 个单词或摘要少于 10 个单词的文章。

GEM 版本还应用了 langID 过滤器,以确保文章处于正确的语言中。

结构化注释

有其他注释吗?

没有

注释服务?

没有

同意

有任何同意政策吗?

没有

使用数据的理由

版权归原始数据创建者所有,使用权限仅限于非商业用途。

私人身份信息(PII)

包含 PII 吗?

是/很可能

PII 的类别

敏感信息,通用 PII

是否有 PII 标识?

没有标识

维护

任何维护计划?

没有

更广泛的社会背景

数据集的社会影响的先前研究

基于数据的模型的使用情况

没有

对弱势群体的影响

是否满足弱势群体的需求?

没有

对偏见的讨论

是否有已记录的社会偏见?

没有