数据集:

GEM/wiki_auto_asset_turk

任务:

文生文

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

crowd-sourced

源数据集:

original

许可:

other
英文

GEM/wiki_auto_asset_turk 数据集卡片

主数据卡片链接

主数据卡片可在 GEM Website 找到。

数据集摘要

WikiAuto是一个英语简化数据集,我们将其与ASSET和TURK两个质量很高的评估数据集配对作为测试集。输入是来自维基百科的英语句子,目标是一个简化的句子。ASSET和TURK包含相同的测试示例,但引用的简化方式不同(拆分句子 vs 重写和拆分)。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/wiki_auto_asset_turk')

数据加载器可以在此找到 here

website

暂无

paper

WikiAuto ASSET TURK

作者

WikiAuto:姜超,Mounica Maddela,Wuwei Lan,杨忠,徐伟;ASSET:Fernando Alva-Manchego,Louis Martin,Antoine Bordes,Carolina Scarton和Benoîıt Sagot以及Lucia Specia;TURK:徐伟,Courtney Napoles,Ellie Pavlick,Quanze Chen和Chris Callison-Burch

数据集概览

数据及其文档的获取方式

下载

Wiki-Auto repository ASSET repository TURKCorpus

Paper

WikiAuto ASSET TURK

BibTex

WikiAuto:

@inproceedings{jiang-etal-2020-neural,
    title = "Neural {CRF} Model for Sentence Alignment in Text Simplification",
    author = "Jiang, Chao  and
      Maddela, Mounica  and
      Lan, Wuwei  and
      Zhong, Yang  and
      Xu, Wei",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.709",
    doi = "10.18653/v1/2020.acl-main.709",
    pages = "7943--7960",
}

ASSET:
@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Beno{\^\i}t  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

TURK:
@article{Xu-EtAl:2016:TACL,
 author = {Wei Xu and Courtney Napoles and Ellie Pavlick and Quanze Chen and Chris Callison-Burch},
 title = {Optimizing Statistical Machine Translation for Text Simplification},
 journal = {Transactions of the Association for Computational Linguistics},
 volume = {4},
 year = {2016},
 url = {https://cocoxu.github.io/publications/tacl2016-smt-simplification.pdf},
 pages = {401--415}
 }

联系人姓名

WikiAuto:姜超;ASSET:Fernando Alva-Manchego和Louis Martin;TURK:徐伟

联系人邮箱

jiang.1530@osu.edu,f.alva@sheffield.ac.uk,louismartincs@gmail.com,wei.xu@cc.gatech.edu

有排行榜吗?

语言和使用目的

多语言?

覆盖语言

英语

语言所有者

Wiki-Auto仅包含英语文本(BCP-47:en)。它被视为一项翻译任务,其中简单英语维基百科被视为自己的独特语言。关于在该平台上构成简单英语的说明(但并不总是实际应用),请参见 Simple English in Wikipedia 。ASSET和TURK使用众包的方式更改参考文献,因此它们的语言是WikiAuto数据和MTurk众包语言的组合。

许可证

其他:其他许可证

拟议用途

WikiAuto提供一组对齐的句子,这些句子来自英语维基百科和简单英语维基百科,作为训练句子简化系统的资源。

作者首先众包收集了一部分简单英语维基百科和其对应的英语维基百科文章的句子对齐(在该版本的数据集中称为“manual”配置),然后训练了一个神经CRF系统来预测这些对齐关系。

训练后的对齐预测模型然后被应用于简单英语维基百科的其他文章与其英语对应体,从而创建一个更大的对齐句子语料库(对应于此处的“auto”和“auto_acl”配置)。

ASSET 是用于评估英语句子简化的多参考数据集。该数据集使用同2,359个句子,每个句子与10个众包简化句子相关联。与以前的简化数据集不同,ASSET中的简化涵盖了各种重写变换。

TURKCorpus是一款高质量的简化数据集,每个源(非简单)句子都与8个人工编写的侧重于词汇换词的简化句子相关联。它是GEM中文本简化任务的两个评估数据集之一。它用作验证和测试未涉及句子拆分和删除的基于释义的简化的数据集。

附加许可证信息

WikiAuto: CC BY-NC 3.0,ASSET:CC BY-NC 4.0,TURK:GNU通用公共许可证v3.0

主要任务

简化

交际目标

目标是以更容易被非英语为母语的人理解的方式传达源句子的主要思想。

授权信息

组织类型

学术,行业

组织

俄亥俄州立大学、谢菲尔德大学、Inria、Facebook AI研究院、伦敦帝国学院、宾夕法尼亚大学、约翰霍普金斯大学

数据集创作者

WikiAuto:姜超,Mounica Maddela,Wuwei Lan,杨忠,徐伟;ASSET:Fernando Alva-Manchego,Louis Martin,Antoine Bordes,Carolina Scarton,Benoîıt Sagot和Lucia Specia;TURK:徐伟,Courtney Napoles,Ellie Pavlick,Quanze Chen和Chris Callison-Burch

资金

WikiAuto:NSF,ODNI,IARPA,Figure Eight AI和Criteo。ASSET:PRAIRIE研究所,ANR。TURK:NSF

谁将数据集添加到GEM中?

GEM v1的WikiAuto、ASSET和TURK有单独的数据卡片。Dhruv Kumar和Mounica Maddela做出了贡献。数据加载器的初始版本由Yacine Jernite编写。Sebastian Gehrmann合并和扩展了数据卡片,并将加载器迁移到v2基础设施中。

数据集结构

数据字段
  • source:数据集之一的源句子
  • target:对应于源句子的一个简化句子
  • references:对于ASSET/TURK,参考文献是一个字符串列表,对应于不同的参考文献
结构原因

底层数据集具有广泛的次要注释,可以与GEM版本结合使用,为了简化格式,我们省略了这些注释,使其转换为可以由seq2seq模型使用的格式。

示例实例
{
  'source': 'In early work, Rutherford discovered the concept of radioactive half-life , the radioactive element radon, and differentiated and named alpha and beta radiation .',
 'target': 'Rutherford discovered the radioactive half-life, and the three parts of radiation which he named Alpha, Beta, and Gamma.'
}
数据拆分

在WikiAuto中,用作训练和验证集的提供了以下拆分:

Tain Dev Test
Total sentence pairs 373801 73249 118074
Aligned sentence pairs 1889 346 677
这个 ASSET不包含训练集;许多模型使用 WikiLarge (Zhang and Lapata, 2017)进行训练。对于GEM,将使用 Wiki-Auto 来训练模型。 每个输入句子都有10个相关联的参考简化句子。ASSET的统计信息如下。
Dev Test Total
Input Sentences 2000 359 2359
Reference Simplifications 20000 3590 23590
测试和验证集与 TurkCorpus 相同。拆分是随机的。 每个参考句子平均有19.04个标记(低于TurkCorpus和HSplit的21.29和25.49)。大多数(17245)参考句子不涉及句子拆分。 TURKCorpus不包含训练集;许多模型使用 WikiLarge (Zhang and Lapata, 2017)或 Wiki-Auto (Jiang et. al 2020)进行训练。 每个输入句子都有8个相关联的参考简化句子。 2,359个输入句子被随机分成2,000个验证句子和359个测试句子。
Dev Test Total
Input Sentences 2000 359 2359
Reference Simplifications 16000 2872 18872
每个参考句子平均有21.29个标记。 拆分准则

在我们的设置中,我们使用WikiAuto作为训练/验证语料库,ASSET和TURK作为测试语料库。ASSET和TURK具有相同的输入,但参考风格不同。因此,研究人员可以根据模型应该学习的策略进行有针对性的评估。

GEM中的数据集

GEM选用原因

为何在GEM中选择该数据集?

WikiAuto是目前最大的开放文本简化数据集。ASSET和TURK是与WikiAuto兼容的高质量测试集。

类似的数据集

独特的语言覆盖

与GEM其他数据集的不同之处

它的独特设置带有多个测试集使得该任务有趣,因为它可以评估采用不同方式进行简化的多个生成和系统。

数据集所衡量的能力

简化

GEM特定的数据集策划

GEM进行了修改吗?

GEM的修改

其他

修改的细节

我们删除了次要注释,专注于简单的输入-输出格式,并组合不同的子数据集。

有其他拆分吗?

拆分信息

我们根据源句子的句法复杂性对原始测试集进行了拆分。为了对句法复杂性进行表征,我们使用 Covington et al. (2006) 提出的8级发展水平(d-level)划分,并使用 Lu, Xiaofei (2010) 的实现。因此,我们将原始测试集分为8个子集,对应于分配给源句子的8个d级。数据集的每个水平上的实例数量和平均d级如下:

Total nb. sentences L0 L1 L2 L3 L4 L5 L6 L7 Mean Level
359 166 0 58 32 5 28 7 63 2.38
拆分动机

目标是评估在简化具有不同句法结构和复杂性的源句子时的性能。

开始完成任务

资源指示

近期有一些基于监督( Martin et al., 2019 Kriz et al., 2019 Dong et al., 2019 Zhang and Lapata, 2017 )和无监督( Martin et al., 2020 Kumar et al., 2020 Surya et al., 2019 )的文本简化模型可以作为基准使用。

专业术语

自动评估使用的常见度量是SARI (Xu et al., 2016)

以前的结果

以前的结果

评估的模型能力

简化

指标

其他:其他指标,BLEU

其他指标

SARI:一种简化度量,将添加、删除和保留的单词的“好处”纳入考虑。

提出的评估标准

WikiAuto和ASSET的原始作者使用人工评估来评估流畅性、适用性和简单性(详细说明见论文)。对于TURK,作者衡量了语法性,意义保留性和简化增益(论文中有详细说明)。

是否有以前的结果?

数据集策划

原始策划

原始策划原因

Wiki-Auto提供了一个新版本的维基百科语料库,它更大,包含的缺陷对少,还有比以前的WIKILARGE数据集更复杂的重写。

ASSET的创建旨在改进对句子简化的评估。它使用与 (Xu et al., 2016) 数据集相关的相同输入句子。TurkCorpus的2,359个输入句子是从 (Zhu et al., 2010) 数据集,即2009年8月22日的维基百科版本中选择的样本,“标准”(不简单)的句子。 TurkCorpus的句子被选择为具有类似长度的句子 (Xu et al., 2016) 。关于采样策略没有提供进一步的信息。

TurkCorpus数据集的开发是为了解决来自标准Wikipedia和简单Wikipedia的句子对的一些问题:大部分句子是不对齐的,或者实际上并不简单 (Xu et al., 2016) 。但是,TurkCorpus主要关注了词汇换词,因此不能用于评估涉及压缩(删除)或句子拆分的简化。相反,HSplit (Sulem et al., 2018) 只能用于评估句子拆分。ASSET的参考句子包括更多种类的句子重写策略,包括拆分、压缩和换句话说。给予评注者单个类型的转换示例,以及同时使用所有三个转换的示例,但是允许他们决定在任何给定的句子中使用哪些转换。

以下是说明TurkCorpus、HSplit和ASSET之间差异的示例:

原始句子:他在伦敦定居,主要致力于实际教学。

TurkCorpus:他在伦敦扎根,主要致力于实际教学。

HSplit:他在伦敦定居。他主要致力于实际教学。

ASSET: 他住在伦敦。他是一位教师。

交流目标

目标是使用更简单的词汇和语法来传达与源句子相同的信息。

来源于不同的来源

来源细节

维基百科

语言数据

语言数据如何获取?

找到的

它是在哪里找到的?

单个网站

语言生产者

数据集使用维基百科的语言:提供了一些有关人口统计信息 here

数据验证

没有进行验证

是否对数据进行过滤?

通过算法进行过滤

过滤标准

作者提到他们“使用改进版本的 WikiExtractor 库 从2019/09维基百科转储中提取了138,095个文章对(总共10,123对句子)。 SpaCy 库被用于句子拆分。

结构化注释

是否需要额外标注?

标注人数

11 < n < 50

标注人员资格

WikiAuto(Figure Eight):未提供任何有关众包工人的 demographic 注释信息。

ASSET(MTurk):

  • 通过的HIT批准率超过95%,并且批准的HIT超过1000个。没有提供其他人口统计或补偿信息。
  • 通过资格测试(适当简化句子)。在100个工人中,有42个通过了测试。
  • 是美国、英国或加拿大的居民。

TURK(MTurk):

  • 参考句子是从Amazon Mechanical Turk上众包的。评注者被要求提供简化,同时不丢失任何信息或拆分输入句子。TURKCorpus的论文中没有提供其他人口统计或补偿信息。在论文中提供了给标注者的指示。
每个培训示例的标注者

1

每个测试示例的标注者

5

注释服务?

哪个注释服务

亚马逊机械土耳其语,Appen

注释值

WikiAuto:用于500个随机选择的文档对(共10,123个句子对)对句子对进行了众包标注。作者根据各种相似性度量从英语维基百科为每个简单维基百科句子预先选择了几个对齐候选项,然后要求众包工人对这些句子对进行注释。最后,他们在这个手动标注的数据集上训练了他们的对齐模型,以获得自动对齐的句子(共138,095个文档对,488,332个句子对)。对于众包工人的人口统计注释信息没有提供。参与注释的平台是Figure Eight(现在是Appen)。

ASSET:注释者获得的指示可在论文中找到。

TURK:参考句子是从Amazon Mechanical Turk进行众包的。要求注释者提供简化,同时不丢失任何信息或拆分输入句子。TURKCorpus的论文中没有提供其他人口统计或补偿信息。在论文中提供了给注释者的指示。

是否有质量控制?

没有

同意

是否有同意政策?

同意政策细节

Figure Eight和Amazon Mechanical Turk的注释者同意根据协议放弃其数据的权利。

私人识别信息(PII)

包含PII吗?

不包含PII

不包含PII的原因

由于数据集是基于维基百科/简单维基百科创建的,因此数据集中包含的所有信息已经在公共领域中。

维护

是否有维护计划?

更广泛的社会背景

对数据集社会影响的先前工作

基于数据的模型的使用

没有

对弱势社群影响的讨论

是否满足弱势社群的需求?

不满足

对偏见的讨论

是否有记录的社会偏见?

偏见分析工作的链接和摘要

该数据集可能包含一些社会偏见,因为输入句子基于维基百科。研究表明,英语维基百科中存在性别偏见, (Schmahl et al., 2020) 和种族偏见 (Adams et al., 2019)

使用数据的考虑事项

PII风险和责任

潜在的PII风险

所有数据都在公共领域中。

许可证

数据集上的版权限制

开放许可证-允许商业使用

语言数据上的版权限制

开放许可证-允许商业使用

已知的技术限制

技术限制

该数据集可能包含一些社会偏见,因为输入句子基于维基百科。研究表明,英语维基百科中存在性别偏见 (Schmahl et al., 2020) 和种族偏见 (Adams et al., 2019)

不适用于的应用程序

由于测试数据集只包含2,359个从维基百科衍生出的句子,因此仅限于维基百科上存在的小部分主题。