数据集:
dennlinger/klexikon
子任务:
text-simplification语言:
de计算机处理:
monolingual大小:
1K<n<10K源数据集:
original预印本库:
arxiv:2201.07198许可:
cc-by-sa-4.0Klexikon数据集是一个德语的资源,它包含了德语维基百科和儿童百科全书“ Klexikon”之间进行对齐的文本。该数据集旨在进行联合文本简化和摘要,并包含了近2900个对齐的文章对。值得注意的是,儿童文章使用的语言比原始维基百科文章更简单;这除了源(Wikipedia)和目标(Klexikon)领域之间的明显长度差异外。
对于评分,我们进行了基于 ROUGE 的初步实验,然而,我们想谨慎指出,ROUGE无法准确地描绘简化的适宜性。我们将其与 Flesch 可读性分数结合起来进行考虑,这是由 textstat 实现的。请注意,诸如 SARI 之类的简化度量在这里不适用,因为它们要求句子对齐,我们没有提供。
关联的BCP-47代码是de-DE。
文章的文本是德语的。 Klexikon文章在发布之前还要进行简单的同行评审,并旨在为8-13岁的儿童简化语言。这意味着Klexikon文章的一般预期文本难度低于维基百科的文章。
一个数据点表示维基百科文本(wiki_text)和Klexikon文本(klexikon_text)。两个数据集的句子通过换行符分隔,并且通过前导“==”(或“ ===”用于子标题,“ ====”用于子子标题等)表示节标题。此外,它还包括wiki_url和klexikon_url,指向相应的源文本。请注意,原始文章是在2021年4月提取的,因此重新爬取文本可能会改变一些内容。最后,我们包括唯一标识符u_id以及Klexikon页面的页面标题。
示例(为了清晰起见,简化的文本):
{ "u_id": 0, "title": "ABBA", "wiki_url": "https://de.wikipedia.org/wiki/ABBA", "klexikon_url": "https://klexikon.zum.de/wiki/ABBA", "wiki_sentences": [ "ABBA ist eine schwedische Popgruppe, die aus den damaligen Paaren Agnetha Fältskog und Björn Ulvaeus sowie Benny Andersson und Anni-Frid Lyngstad besteht und sich 1972 in Stockholm formierte.", "Sie gehört mit rund 400 Millionen verkauften Tonträgern zu den erfolgreichsten Bands der Musikgeschichte.", "Bis in die 1970er Jahre hatte es keine andere Band aus Schweden oder Skandinavien gegeben, der vergleichbare Erfolge gelungen waren.", "Trotz amerikanischer und britischer Dominanz im Musikgeschäft gelang der Band ein internationaler Durchbruch.", "Sie hat die Geschichte der Popmusik mitgeprägt.", "Zu ihren bekanntesten Songs zählen Mamma Mia, Dancing Queen und The Winner Takes It All.", "1982 beendeten die Gruppenmitglieder aufgrund privater Differenzen ihre musikalische Zusammenarbeit.", "Seit 2016 arbeiten die vier Musiker wieder zusammen an neuer Musik, die 2021 erscheinen soll.", ], "klexikon_sentences": [ "ABBA war eine Musikgruppe aus Schweden.", "Ihre Musikrichtung war die Popmusik.", "Der Name entstand aus den Anfangsbuchstaben der Vornamen der Mitglieder, Agnetha, Björn, Benny und Anni-Frid.", "Benny Andersson und Björn Ulvaeus, die beiden Männer, schrieben die Lieder und spielten Klavier und Gitarre.", "Anni-Frid Lyngstad und Agnetha Fältskog sangen." ] },
标签之外的页面内容,这排除了列表,标题和图片。
我们根据维基百科文章/ Klexikon文章对(根据句子数)的长度提供了分层拆分的数据集。x轴表示维基百科文章的长度,y轴表示Klexikon文章的长度。我们将坐标系分割成形状为(100, 10)的矩形,并从每个矩形中随机采样80/10/10的分割以确保分层。对于少于10个条目的矩形,我们将所有样本放入训练集中。
最终拆分的大小如下:
如前所述,Klexikon资源是为了将文本摘要和文本简化这两个领域进行对接而创建的。以前的数据集存在以下一个或多个缺点:
这个数据集是研究对于更长输入文档的端到端简化系统的可行性的起点。
数据是从Klexikon收集的,并随后与德语维基百科的相应文本对齐。具体而言,采集过程是在2021年4月进行的,那时从Klexikon中提取了3145篇文章。然后,我们通过查找具有相同标题的文章来半自动地将这些文章与维基百科对齐。对于不完全匹配的文章,我们会手动检查它们的内容,并在至少可以与Klexikon段落的66%匹配的情况下,决定将其匹配到适当的替代品。类似地,我们继续手动审查维基百科的消歧义页面。
我们仅从最终文本语料库中提取全文内容,排除了图表、标题和列表元素,并仅保留符合以下条件的文章:在预处理后,相关的维基百科文档至少包含15个段落。
语言源生产者是谁?语言生产者是Klexikon和维基百科的贡献者。来自数据源的数据未提供任何人口统计信息。
注释是通过手动审查具有模糊性的文章对的URL进行的。在过程中没有使用注释平台或现有工具。否则,基于确切的标题匹配文章。
注释者是谁?数据集作者(Dennis Aumiller)对手动对齐的文章进行了审核。
由于Klexikon和维基百科是公共百科全书,不包含其他个人或敏感信息。我们没有调查数据集中是否包含关于公众人物的信息的程度。
网络上的可访问性仍然是一个重大问题,特别是对于弱势读者。该数据集有潜力增强文本简化系统,从而可以改善这种情况。在语言覆盖方面,该数据集还对德语数据的可用性产生了有益的影响。
潜在的负面偏见包括自动对齐文章的问题。即使我们的意图再好,对齐可能永远无法完全准确,从而导致对齐错误的文章(或关联)。
我们未测试是否存在对特定文章类型(即“人物”,“城市”等)的任何偏见。类似地,我们尝试为验证和测试集呈现一个无偏(分层)拆分,但鉴于我们只覆盖了约2900篇文章,这些文章可能代表了对词汇内容整体分布的特定关注点。
由于这些文章是独立撰写的,因此不能保证精简文章中的每个句子都存在精确的覆盖,这也可能是因为有时维基百科页面对于某些方面(例如,“奥尔胡斯”市有一个单独的页面用于其艺术博物馆(ARoS)。然而,Klexikon在城市本身的页面上列出了ARoS的内容和描述。
数据集仅由此数据集的作者Dennis Aumiller策划。
Klexikon和维基百科将其文字内容提供给CC BY-SA许可,该许可将继承为此数据集。
如果您使用我们的数据集或相关代码,请引用我们的论文:
@inproceedings{aumiller-gertz-2022-klexikon, title = "Klexikon: A {G}erman Dataset for Joint Summarization and Simplification", author = "Aumiller, Dennis and Gertz, Michael", booktitle = "Proceedings of the Thirteenth Language Resources and Evaluation Conference", month = jun, year = "2022", address = "Marseille, France", publisher = "European Language Resources Association", url = "https://aclanthology.org/2022.lrec-1.288", pages = "2693--2701" }