数据集:

asset

任务:

文本分类

文生文

子任务:

text-simplification

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

machine-generated

源数据集:

original extended|other-turkcorpus

其他:

simplification-evaluation

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

ASSET 数据集卡片

数据集摘要

ASSET 是用于评估英语句子简化的多参考数据集。该数据集使用来自 TurkCorpus 的相同 2,359 个句子，并且每个句子都与 10 个众包简化关联。与先前的简化数据集不同，ASSET 中的简化涵盖了各种重写转换，而不仅仅是单一的转换（例如，TurkCorpus 中的词汇改写或分句）。

支持的任务和排行榜

该数据集支持文本简化系统的评估。通常使用文献中描述的 SARI 和 FKBLEU 评估指标来衡量此任务的成功。

语言

该数据集中的文本为英文（en）。

数据集结构

数据实例

简化配置：实例由原始句子和 10 个可能的参考简化组成。
评分配置：数据实例由原始句子、由自动系统获得的简化以及由众包工作者给出的质量判断在三个方面的评定组成。

数据字段

原始：来自源数据集的原始句子
简化：在简化配置中，一组由众包工作者生成的参考简化。
简化：在评分配置中，原始句子的简化由自动系统得到
方面：在评分配置中，对简化进行评估的方面，包括含义、流畅度、简单性之一
评分：一个介于 0 和 100 之间的质量评分

数据拆分

ASSET 不包含训练集；许多模型使用 WikiLarge （Zhang and Lapata, 2017）进行训练。

每个输入句子都有 10 个关联的参考简化句子。ASSET 的统计信息如下所示。

Dev	Test	Total
Input Sentences	2000	359	2359
Reference Simplifications	20000	3590	23590

测试和验证集与 TurkCorpus 的相同。拆分是随机的。

平均每个参考句子有 19.04 个标记（低于 TurkCorpus 和 HSplit 的 21.29 和 25.49）。大多数（17,245）参考句子不涉及句子拆分。

数据集创建

策展原因

ASSET 是为了改进句子简化的评估而创建的。它使用与 (Xu et al., 2016) 相同的输入句子来自于 TurkCorpus 数据集。TurkCorpus 的 2,359 个输入句子是从 Parallel Wikipedia Simplification (PWKP) 数据集 (Zhu et al., 2010) 中的“标准”（非简单）句子的样本，这些句子来自于 2009 年 8 月 22 日的维基百科版本。为了确保长度相似，从 (Xu et al., 2016) 选择了 TurkCorpus 的句子。对于采样策略没有提供更多信息。

TurkCorpus 数据集的开发是为了克服标准和简单维基百科句子配对中存在的一些问题：大部分句子错位或实际上并不简单。然而，TurkCorpus 主要关注词汇改写，因此无法用于评估涉及压缩（删除）或句子拆分的简化。另一方面，HSplit 只能用于评估句子拆分。ASSET 中的参考句子包括更广泛的句子重写策略，结合了拆分、压缩和释义。注释者分别提供了每种转换的示例，以及同时使用所有三种转换的示例，但允许决定对于任何给定的句子使用哪些转换。

下面是说明 TurkCorpus、HSplit 和 ASSET 之间差异的示例:

原始: 他在伦敦定居，主要致力于实践教学。

TurkCorpus: 他在伦敦扎根，主要致力于实践教学。

HSplit: 他在伦敦定居。他主要致力于实践教学。

ASSET: 他住在伦敦。他是一位教师。

资源数据

初始数据收集和标准化

[需要更多信息]

资源语言制作者是谁？

输入句子来自于英文维基百科（2009 年 8 月 22 日版本）。对这些句子的作者没有可用的人口统计信息。然而，大多数维基百科编辑者都是男性（Lam，2011；Graells-Garrido，2015），这对所涵盖的主题产生了影响（也请参阅 the Wikipedia page on Wikipedia gender bias ）。此外，维基百科编辑者主要是白人，年轻人，来自于北半球。

42 名工人在亚马逊力量计（AMT）上编写了参考句子。成为注释器的要求是：

通过资格测试（适当地简化句子）。100 名工人中有 42 名通过了测试。
是美国、英国或加拿大的居民。
HIT 批准率超过 95%，批准的 HIT 数超过 1000 。

关于 ASSET 论文中没有提供其他的人口统计或报酬信息。

注释

注释流程

提供给注释者的说明可在此处找到 here 。

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

该数据集可能存在一些社会偏见，因为输入句子基于维基百科。研究表明，英文维基百科中存在性别偏见（Schmahl 等人，2020 年）和种族偏见（Adams 等人，2019 年）。

Adams, Julia, Hannah Brückner, and Cambria Naslund. "Who Counts as a Notable Sociologist on Wikipedia? Gender, Race, and the “Professor Test”." Socius 5 (2019): 2378023118823946.Schmahl, Katja Geertruida, et al. "Is Wikipedia succeeding in reducing gender bias? Assessing changes in gender bias in Wikipedia using word embeddings." Proceedings of the Fourth Workshop on Natural Language Processing and Computational Social Science. 2020.

其他已知限制

仅供研究目的使用的数据集。请查看数据集许可证以获取其他信息。

附加信息

数据集策展人

ASSET 是由谢菲尔德大学、Inria、Facebook AI 研究和伦敦帝国学院的研究人员开发的。该工作部分得到了法国国家研究机构（ANR）的资助，作为“Investissements d'avenir”计划的一部分（参考资助号 ANR-19-P3IA-0001）。

许可信息

Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)

引用信息

@inproceedings{alva-manchego-etal-2020-asset,
    title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations",
    author = "Alva-Manchego, Fernando  and
      Martin, Louis  and
      Bordes, Antoine  and
      Scarton, Carolina  and
      Sagot, Beno{\^\i}t  and
      Specia, Lucia",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.424",
    pages = "4668--4679",
}

本数据集卡片使用 Juan Diego Rodriguez 撰写的资料。

贡献

感谢 @yjernite 添加此数据集。

作者:

佚名

数据集大小:

31.99 KB