数据集:

wiki_auto

任务:

文生文

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

预印本库:

arxiv:2005.02324
英文

WikiAuto 数据集卡片

数据集概述

WikiAuto 提供了一组来自英文维基百科和简易英文维基百科的对齐句子,作为训练句子简化系统的资源。

作者首先通过众包方式在简易英文维基百科的子集和对应的英文维基百科中手动对齐了一组句子(这对应于数据集的手动配置版本),然后训练了一个神经CRF模型来预测这些对齐句子。

然后将训练好的对齐预测模型应用于简易英文维基百科中的其他文章,与对应的英文维基百科创建了一系列对齐句子的语料库(在此处对应于auto、auto_acl、auto_full_no_split和auto_full_with_split配置)。

支持的任务和排行榜

此数据集的创建旨在支持文本简化任务。通常使用论文中所描述的 SARI FKBLEU 指标来衡量这些任务的成功程度。

语言

虽然所提出的任务的输入和输出均为英文(en),但应注意将其作为翻译任务,其中简易英文维基百科被视为一种独特的语言表达方式。有关这个平台上所认为的简易英文语言的定义(尽管并非总是如此),请参见 Simple English in Wikipedia

数据集结构

数据实例

所有配置的数据看起来有点不同。

manual配置实例由来自简易英文维基百科文章的一个句子、来自链接的英文维基百科文章的一个句子、各自的ID以及一个标签组成,指示它们是否对齐。两侧的句子可以重复,使得对齐的句子在同一个实例中。例如:

{'alignment_label': 1,
 'normal_sentence_id': '0_66252-1-0-0',
 'simple_sentence_id': '0_66252-0-0-0',
 'normal_sentence': 'The Local Government Act 1985 is an Act of Parliament in the United Kingdom.', 'simple_sentence': 'The Local Government Act 1985 was an Act of Parliament in the United Kingdom', 'gleu_score': 0.800000011920929}

后面是

{'alignment_label': 0,
 'normal_sentence_id': '0_66252-1-0-1',
 'simple_sentence_id': '0_66252-0-0-0',
 'normal_sentence': 'Its main effect was to abolish the six county councils of the metropolitan counties that had been set up in 1974, 11 years earlier, by the Local Government Act 1972, along with the Greater London Council that had been established in 1965.',
 'simple_sentence': 'The Local Government Act 1985 was an Act of Parliament in the United Kingdom', 'gleu_score': 0.08641975373029709}

auto配置将英文维基百科和简易英文维基百科的一对句子作为一个实例,以段落和句子级别进行对齐:

{'example_id': '0',
 'normal': {'normal_article_content': {'normal_sentence': ["Lata Mondal ( ; born: 16 January 1993, Dhaka) is a Bangladeshi cricketer who plays for the Bangladesh national women's cricket team.",
    'She is a right handed batter.',
    'Mondal was born on January 16, 1993 in Dhaka, Bangladesh.',
    "Mondal made her ODI career against the Ireland women's cricket team on November 26, 2011.",
    "Mondal made her T20I career against the Ireland women's cricket team on August 28, 2012.",
    "In October 2018, she was named in Bangladesh's squad for the 2018 ICC Women's World Twenty20 tournament in the West Indies.",
    "Mondal was a member of the team that won a silver medal in cricket against the China national women's cricket team at the 2010 Asian Games in Guangzhou, China."],
   'normal_sentence_id': ['normal-41918715-0-0',
    'normal-41918715-0-1',
    'normal-41918715-1-0',
    'normal-41918715-2-0',
    'normal-41918715-3-0',
    'normal-41918715-3-1',
    'normal-41918715-4-0']},
  'normal_article_id': 41918715,
  'normal_article_title': 'Lata Mondal',
  'normal_article_url': 'https://en.wikipedia.org/wiki?curid=41918715'},
 'paragraph_alignment': {'normal_paragraph_id': ['normal-41918715-0'],
  'simple_paragraph_id': ['simple-702227-0']},
 'sentence_alignment': {'normal_sentence_id': ['normal-41918715-0-0',
   'normal-41918715-0-1'],
  'simple_sentence_id': ['simple-702227-0-0', 'simple-702227-0-1']},
 'simple': {'simple_article_content': {'simple_sentence': ["Lata Mondal (born: 16 January 1993) is a Bangladeshi cricketer who plays for the Bangladesh national women's cricket team.",
    'She is a right handed bat.'],
   'simple_sentence_id': ['simple-702227-0-0', 'simple-702227-0-1']},
  'simple_article_id': 702227,
  'simple_article_title': 'Lata Mondal',
  'simple_article_url': 'https://simple.wikipedia.org/wiki?curid=702227'}}

最后,通过从auto中选择对齐的句子对,获得了auto_acl、auto_full_no_split和auto_full_with_split配置,以提供一个可直接用于训练序列到序列系统的对齐数据集。其中,auto_acl对应于用于论文中系统训练的数据的过滤版本,auto_full_no_split和auto_full_with_split分别对应于无过滤版本和无句子拆分的版本。在auto_full_with_split配置中,我们将简易文章中映射到复杂文章的相同句子中的句子连接起来,以捕捉句子拆分。拆分的句子由""令牌分隔。在auto_full_no_split配置中,我们不进行拆分,而是将它们视为单独的句子对。一个实例是一对句子:

{'normal_sentence': 'In early work , Rutherford discovered the concept of radioactive half-life , the radioactive element radon , and differentiated and named alpha and beta radiation .\n',
 'simple_sentence': 'Rutherford discovered the radioactive half-life , and the three parts of radiation which he named Alpha , Beta , and Gamma .\n'}

数据字段

数据具有以下字段:

  • normal_sentence: 来自英文维基百科的句子。
  • normal_sentence_id: 每个英文维基百科句子的唯一ID。最后两个由破折号分隔的数字分别对应于文章中的段落编号和句子编号。
  • simple_sentence: 来自简易英文维基百科的句子。
  • simple_sentence_id: 每个简易英文维基百科句子的唯一ID。最后两个由破折号分隔的数字分别对应于文章中的段落编号和句子编号。
  • alignment_label: 表示一对句子是否对齐,标签为2:partialAligned、1:aligned和0:notAligned
  • paragraph_alignment: 对齐映射英文和简易英文链接文章的第一步
  • sentence_alignment: 对齐映射英文和简易英文链接文章的完整句子
  • gleu_score: 每对句子的句子级GLEU(Google-BLEU)分数。

数据拆分

在auto配置中,part_2拆分对应于在manual中使用的文章,part_1包含剩余的维基百科文章。

manual配置提供了train/dev/test划分,数据量如下:

train validation test
Total sentence pairs 373801 73249 118074
Aligned sentence pairs 1889 346 677

数据集创建

策划理由

简易英文维基百科提供了一个用于文本简化系统的训练数据的便利来源,因为 1. 不同语言的文章是链接在一起的,易于找到平行数据,2. 简易英文数据是由用户为用户编写的,而不是由专业翻译人员编写的。然而,即使文章是对齐的,找到好的句子级对齐仍然具有挑战性。该工作旨在解决这个问题。通过手动注释一部分文章的子集,他们在预测对齐方面达到了超过88%的F1分数,从而可以使用整个简易英文维基百科创建高质量的句子级对齐语料库。

来源数据

数据收集和标准化

作者提到他们使用“改进版本的 WikiExtractor 库”从2019/09年维基百科转储中提取了138,095对文章。句子分割使用了 SpaCy 库。

谁是源语言的生产者?

该数据集使用了维基百科上的语言,提供了一些人口统计信息。

注释

注释过程

获取了500个随机抽样的文档对(共计10,123对句子对)的句子对齐标签。根据各种相似度度量,作者预先选择了英文维基百科中每个简易维基百科句子的多个对齐候选项,然后要求众包工人注释这些句子对。

谁是注释者?

未提供众包工人的人口统计注释信息。[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

该数据集由在俄亥俄州立大学工作的Chao Jiang、Mounica Maddela、Wuwei Lan、Yang Zhong和Wei Xu创建。

许可信息

该数据集本身没有许可证,但源维基百科数据使用的是cc-by-sa-3.0许可证。

引用信息

您可以引用该数据集的论文如下:

@inproceedings{acl/JiangMLZX20,
  author    = {Chao Jiang and
               Mounica Maddela and
               Wuwei Lan and
               Yang Zhong and
               Wei Xu},
  editor    = {Dan Jurafsky and
               Joyce Chai and
               Natalie Schluter and
               Joel R. Tetreault},
  title     = {Neural {CRF} Model for Sentence Alignment in Text Simplification},
  booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2020, Online, July 5-10, 2020},
  pages     = {7943--7960},
  publisher = {Association for Computational Linguistics},
  year      = {2020},
  url       = {https://www.aclweb.org/anthology/2020.acl-main.709/}
}

贡献

感谢 @yjernite @mounicam 添加此数据集。