英文

Klexikon数据集数据卡

版本历史

  • v0.3 (2022-09-01): 由于与其他样本存在重复冲突,从数据集中删除了一些样本。
  • v0.2 (2022-02-28): 更新文件,不再包含空的段落,并删除文件末尾的空行。还删除了带有某种坐标的行。
  • v0.1 (2022-01-19): 在Huggingface数据集上首次发布数据。

数据集概述

Klexikon数据集是一个德语的资源,它包含了德语维基百科和儿童百科全书“ Klexikon”之间进行对齐的文本。该数据集旨在进行联合文本简化和摘要,并包含了近2900个对齐的文章对。值得注意的是,儿童文章使用的语言比原始维基百科文章更简单;这除了源(Wikipedia)和目标(Klexikon)领域之间的明显长度差异外。

支持的任务和排行榜

  • 摘要:该数据集可用于训练摘要模型。特别是,它提出了比一些常用数据集(CNN / DailyMail)更具挑战性的任务,这些数据集往往在源文本中存在位置偏差。通过简单地选择前三个句子,就可以轻松生成高(ROUGE)得分的解决方案。我们的数据集提供了一个更具挑战性的提取任务,同时还增加了寻找适当简化的词汇的额外难度。
  • 简化:尽管当前不支持HF任务板,但文本简化着眼于为弱势读者(如儿童,语言学习者,阅读障碍者等)适当地呈现文本的表示形式。

对于评分,我们进行了基于 ROUGE 的初步实验,然而,我们想谨慎指出,ROUGE无法准确地描绘简化的适宜性。我们将其与 Flesch 可读性分数结合起来进行考虑,这是由 textstat 实现的。请注意,诸如 SARI 之类的简化度量在这里不适用,因为它们要求句子对齐,我们没有提供。

语言

关联的BCP-47代码是de-DE。

文章的文本是德语的。 Klexikon文章在发布之前还要进行简单的同行评审,并旨在为8-13岁的儿童简化语言。这意味着Klexikon文章的一般预期文本难度低于维基百科的文章。

数据集结构

数据实例

一个数据点表示维基百科文本(wiki_text)和Klexikon文本(klexikon_text)。两个数据集的句子通过换行符分隔,并且通过前导“==”(或“ ===”用于子标题,“ ====”用于子子标题等)表示节标题。此外,它还包括wiki_url和klexikon_url,指向相应的源文本。请注意,原始文章是在2021年4月提取的,因此重新爬取文本可能会改变一些内容。最后,我们包括唯一标识符u_id以及Klexikon页面的页面标题。

示例(为了清晰起见,简化的文本):

{
    "u_id": 0,
    "title": "ABBA",
    "wiki_url": "https://de.wikipedia.org/wiki/ABBA",
    "klexikon_url": "https://klexikon.zum.de/wiki/ABBA",
    "wiki_sentences": [
      "ABBA ist eine schwedische Popgruppe, die aus den damaligen Paaren Agnetha Fältskog und Björn Ulvaeus sowie Benny Andersson und Anni-Frid Lyngstad besteht und sich 1972 in Stockholm formierte.",
      "Sie gehört mit rund 400 Millionen verkauften Tonträgern zu den erfolgreichsten Bands der Musikgeschichte.",
      "Bis in die 1970er Jahre hatte es keine andere Band aus Schweden oder Skandinavien gegeben, der vergleichbare Erfolge gelungen waren.",
      "Trotz amerikanischer und britischer Dominanz im Musikgeschäft gelang der Band ein internationaler Durchbruch.",
      "Sie hat die Geschichte der Popmusik mitgeprägt.",
      "Zu ihren bekanntesten Songs zählen Mamma Mia, Dancing Queen und The Winner Takes It All.",
      "1982 beendeten die Gruppenmitglieder aufgrund privater Differenzen ihre musikalische Zusammenarbeit.",
      "Seit 2016 arbeiten die vier Musiker wieder zusammen an neuer Musik, die 2021 erscheinen soll.",
    ],
    "klexikon_sentences": [
      "ABBA war eine Musikgruppe aus Schweden.",
      "Ihre Musikrichtung war die Popmusik.",
      "Der Name entstand aus den Anfangsbuchstaben der Vornamen der Mitglieder, Agnetha, Björn, Benny und Anni-Frid.",
      "Benny Andersson und Björn Ulvaeus, die beiden Männer, schrieben die Lieder und spielten Klavier und Gitarre.",
      "Anni-Frid Lyngstad und Agnetha Fältskog sangen."
    ]
  },

数据字段

  • u_id(int):数据集中每个文档对的唯一标识符。 0-2349用于训练数据,2350-2623用于测试,2364-2897用于验证。
  • title(str):此样本的Klexikon页面的标题。
  • wiki_url(str):相关维基百科文章的URL。值得注意的是,这是一个非平凡的任务,因为我们可能有消歧页面,其中维基百科标题与Klexikon不完全相同。
  • klexikon_url(str):Klexikon文章的URL。
  • wiki_text(List[str]):维基百科文章的句子列表。我们使用spacy的sentence splitting(模型:de_core_news_md)来准备预分割文档。此外,请注意,我们不包括

    标签之外的页面内容,这排除了列表,标题和图片。

  • klexikon_text(List[str]):Klexikon文章的句子列表。我们对维基百科文本应用相同的处理。

数据切分

我们根据维基百科文章/ Klexikon文章对(根据句子数)的长度提供了分层拆分的数据集。x轴表示维基百科文章的长度,y轴表示Klexikon文章的长度。我们将坐标系分割成形状为(100, 10)的矩形,并从每个矩形中随机采样80/10/10的分割以确保分层。对于少于10个条目的矩形,我们将所有样本放入训练集中。

最终拆分的大小如下:

  • 训练样本2350个
  • 验证样本274个
  • 测试样本274个

数据集创建

策划理由

如前所述,Klexikon资源是为了将文本摘要和文本简化这两个领域进行对接而创建的。以前的数据集存在以下一个或多个缺点:

  • 它们主要关注相似长度的输入/输出对,而不反映长篇文本。
  • 数据主要存在于英语中,其他语言在研究中被公认为不足。
  • 对于句子级别的对齐存在,但对于文档级别的对齐则不存在。

这个数据集是研究对于更长输入文档的端到端简化系统的可行性的起点。

源数据

初始数据收集和规范化

数据是从Klexikon收集的,并随后与德语维基百科的相应文本对齐。具体而言,采集过程是在2021年4月进行的,那时从Klexikon中提取了3145篇文章。然后,我们通过查找具有相同标题的文章来半自动地将这些文章与维基百科对齐。对于不完全匹配的文章,我们会手动检查它们的内容,并在至少可以与Klexikon段落的66%匹配的情况下,决定将其匹配到适当的替代品。类似地,我们继续手动审查维基百科的消歧义页面。

我们仅从最终文本语料库中提取全文内容,排除了图表、标题和列表元素,并仅保留符合以下条件的文章:在预处理后,相关的维基百科文档至少包含15个段落。

语言源生产者是谁?

语言生产者是Klexikon和维基百科的贡献者。来自数据源的数据未提供任何人口统计信息。

注释

注释过程

注释是通过手动审查具有模糊性的文章对的URL进行的。在过程中没有使用注释平台或现有工具。否则,基于确切的标题匹配文章。

注释者是谁?

数据集作者(Dennis Aumiller)对手动对齐的文章进行了审核。

个人和敏感信息

由于Klexikon和维基百科是公共百科全书,不包含其他个人或敏感信息。我们没有调查数据集中是否包含关于公众人物的信息的程度。

使用数据时的注意事项

数据集的社会影响

网络上的可访问性仍然是一个重大问题,特别是对于弱势读者。该数据集有潜力增强文本简化系统,从而可以改善这种情况。在语言覆盖方面,该数据集还对德语数据的可用性产生了有益的影响。

潜在的负面偏见包括自动对齐文章的问题。即使我们的意图再好,对齐可能永远无法完全准确,从而导致对齐错误的文章(或关联)。

偏见讨论

我们未测试是否存在对特定文章类型(即“人物”,“城市”等)的任何偏见。类似地,我们尝试为验证和测试集呈现一个无偏(分层)拆分,但鉴于我们只覆盖了约2900篇文章,这些文章可能代表了对词汇内容整体分布的特定关注点。

其他已知限制

由于这些文章是独立撰写的,因此不能保证精简文章中的每个句子都存在精确的覆盖,这也可能是因为有时维基百科页面对于某些方面(例如,“奥尔胡斯”市有一个单独的页面用于其艺术博物馆(ARoS)。然而,Klexikon在城市本身的页面上列出了ARoS的内容和描述。

其他信息

数据集策划者

数据集仅由此数据集的作者Dennis Aumiller策划。

许可信息

Klexikon和维基百科将其文字内容提供给CC BY-SA许可,该许可将继承为此数据集。

引文信息

如果您使用我们的数据集或相关代码,请引用我们的论文:

@inproceedings{aumiller-gertz-2022-klexikon,
    title = "Klexikon: A {G}erman Dataset for Joint Summarization and Simplification",
    author = "Aumiller, Dennis  and
      Gertz, Michael",
    booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference",
    month = jun,
    year = "2022",
    address = "Marseille, France",
    publisher = "European Language Resources Association",
    url = "https://aclanthology.org/2022.lrec-1.288",
    pages = "2693--2701"
}