数据集:
asset
子任务:
text-simplification语言:
en计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
machine-generated许可:
cc-by-sa-4.0ASSET 是用于评估英语句子简化的多参考数据集。该数据集使用来自 TurkCorpus 的相同 2,359 个句子,并且每个句子都与 10 个众包简化关联。与先前的简化数据集不同,ASSET 中的简化涵盖了各种重写转换,而不仅仅是单一的转换(例如,TurkCorpus 中的词汇改写或分句)。
该数据集支持文本简化系统的评估。通常使用文献中描述的 SARI 和 FKBLEU 评估指标来衡量此任务的成功。
该数据集中的文本为英文(en)。
ASSET 不包含训练集;许多模型使用 WikiLarge (Zhang and Lapata, 2017)进行训练。
每个输入句子都有 10 个关联的参考简化句子。ASSET 的统计信息如下所示。
Dev | Test | Total | |
---|---|---|---|
Input Sentences | 2000 | 359 | 2359 |
Reference Simplifications | 20000 | 3590 | 23590 |
测试和验证集与 TurkCorpus 的相同。拆分是随机的。
平均每个参考句子有 19.04 个标记(低于 TurkCorpus 和 HSplit 的 21.29 和 25.49)。大多数(17,245)参考句子不涉及句子拆分。
ASSET 是为了改进句子简化的评估而创建的。它使用与 (Xu et al., 2016) 相同的输入句子来自于 TurkCorpus 数据集。TurkCorpus 的 2,359 个输入句子是从 Parallel Wikipedia Simplification (PWKP) 数据集 (Zhu et al., 2010) 中的“标准”(非简单)句子的样本,这些句子来自于 2009 年 8 月 22 日的维基百科版本。为了确保长度相似,从 (Xu et al., 2016) 选择了 TurkCorpus 的句子。对于采样策略没有提供更多信息。
TurkCorpus 数据集的开发是为了克服标准和简单维基百科句子配对中存在的一些问题:大部分句子错位或实际上并不简单。然而,TurkCorpus 主要关注词汇改写,因此无法用于评估涉及压缩(删除)或句子拆分的简化。另一方面,HSplit 只能用于评估句子拆分。ASSET 中的参考句子包括更广泛的句子重写策略,结合了拆分、压缩和释义。注释者分别提供了每种转换的示例,以及同时使用所有三种转换的示例,但允许决定对于任何给定的句子使用哪些转换。
下面是说明 TurkCorpus、HSplit 和 ASSET 之间差异的示例:
原始: 他在伦敦定居,主要致力于实践教学。
TurkCorpus: 他在伦敦扎根,主要致力于实践教学。
HSplit: 他在伦敦定居。他主要致力于实践教学。
ASSET: 他住在伦敦。他是一位教师。
[需要更多信息]
资源语言制作者是谁?输入句子来自于英文维基百科(2009 年 8 月 22 日版本)。对这些句子的作者没有可用的人口统计信息。然而,大多数维基百科编辑者都是男性(Lam,2011;Graells-Garrido,2015),这对所涵盖的主题产生了影响(也请参阅 the Wikipedia page on Wikipedia gender bias )。此外,维基百科编辑者主要是白人,年轻人,来自于北半球。
42 名工人在亚马逊力量计(AMT)上编写了参考句子。成为注释器的要求是:
关于 ASSET 论文中没有提供其他的人口统计或报酬信息。
提供给注释者的说明可在此处找到 here 。
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集可能存在一些社会偏见,因为输入句子基于维基百科。研究表明,英文维基百科中存在性别偏见(Schmahl 等人,2020 年)和种族偏见(Adams 等人,2019 年)。
Adams, Julia, Hannah Brückner, and Cambria Naslund. "Who Counts as a Notable Sociologist on Wikipedia? Gender, Race, and the “Professor Test”." Socius 5 (2019): 2378023118823946.Schmahl, Katja Geertruida, et al. "Is Wikipedia succeeding in reducing gender bias? Assessing changes in gender bias in Wikipedia using word embeddings." Proceedings of the Fourth Workshop on Natural Language Processing and Computational Social Science. 2020.
仅供研究目的使用的数据集。请查看数据集许可证以获取其他信息。
ASSET 是由谢菲尔德大学、Inria、Facebook AI 研究和伦敦帝国学院的研究人员开发的。该工作部分得到了法国国家研究机构(ANR)的资助,作为“Investissements d'avenir”计划的一部分(参考资助号 ANR-19-P3IA-0001)。
Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
@inproceedings{alva-manchego-etal-2020-asset, title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations", author = "Alva-Manchego, Fernando and Martin, Louis and Bordes, Antoine and Scarton, Carolina and Sagot, Beno{\^\i}t and Specia, Lucia", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.424", pages = "4668--4679", }
本数据集卡片使用 Juan Diego Rodriguez 撰写的资料。
感谢 @yjernite 添加此数据集。