数据集:
GEM/wiki_auto_asset_turk
任务:
文生文子任务:
text-simplification语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
crowd-sourced源数据集:
original许可:
other主数据卡片可在 GEM Website 找到。
WikiAuto是一个英语简化数据集,我们将其与ASSET和TURK两个质量很高的评估数据集配对作为测试集。输入是来自维基百科的英语句子,目标是一个简化的句子。ASSET和TURK包含相同的测试示例,但引用的简化方式不同(拆分句子 vs 重写和拆分)。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/wiki_auto_asset_turk')
数据加载器可以在此找到 here 。
website暂无
paper 作者WikiAuto:姜超,Mounica Maddela,Wuwei Lan,杨忠,徐伟;ASSET:Fernando Alva-Manchego,Louis Martin,Antoine Bordes,Carolina Scarton和Benoîıt Sagot以及Lucia Specia;TURK:徐伟,Courtney Napoles,Ellie Pavlick,Quanze Chen和Chris Callison-Burch
Wiki-Auto repository , ASSET repository , TURKCorpus
Paper BibTexWikiAuto:
@inproceedings{jiang-etal-2020-neural, title = "Neural {CRF} Model for Sentence Alignment in Text Simplification", author = "Jiang, Chao and Maddela, Mounica and Lan, Wuwei and Zhong, Yang and Xu, Wei", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.709", doi = "10.18653/v1/2020.acl-main.709", pages = "7943--7960", }ASSET:
@inproceedings{alva-manchego-etal-2020-asset, title = "{ASSET}: {A} Dataset for Tuning and Evaluation of Sentence Simplification Models with Multiple Rewriting Transformations", author = "Alva-Manchego, Fernando and Martin, Louis and Bordes, Antoine and Scarton, Carolina and Sagot, Beno{\^\i}t and Specia, Lucia", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.424", pages = "4668--4679", }TURK:
@article{Xu-EtAl:2016:TACL, author = {Wei Xu and Courtney Napoles and Ellie Pavlick and Quanze Chen and Chris Callison-Burch}, title = {Optimizing Statistical Machine Translation for Text Simplification}, journal = {Transactions of the Association for Computational Linguistics}, volume = {4}, year = {2016}, url = {https://cocoxu.github.io/publications/tacl2016-smt-simplification.pdf}, pages = {401--415} }联系人姓名
WikiAuto:姜超;ASSET:Fernando Alva-Manchego和Louis Martin;TURK:徐伟
联系人邮箱jiang.1530@osu.edu,f.alva@sheffield.ac.uk,louismartincs@gmail.com,wei.xu@cc.gatech.edu
有排行榜吗?否
否
覆盖语言英语
语言所有者Wiki-Auto仅包含英语文本(BCP-47:en)。它被视为一项翻译任务,其中简单英语维基百科被视为自己的独特语言。关于在该平台上构成简单英语的说明(但并不总是实际应用),请参见 Simple English in Wikipedia 。ASSET和TURK使用众包的方式更改参考文献,因此它们的语言是WikiAuto数据和MTurk众包语言的组合。
许可证其他:其他许可证
拟议用途WikiAuto提供一组对齐的句子,这些句子来自英语维基百科和简单英语维基百科,作为训练句子简化系统的资源。
作者首先众包收集了一部分简单英语维基百科和其对应的英语维基百科文章的句子对齐(在该版本的数据集中称为“manual”配置),然后训练了一个神经CRF系统来预测这些对齐关系。
训练后的对齐预测模型然后被应用于简单英语维基百科的其他文章与其英语对应体,从而创建一个更大的对齐句子语料库(对应于此处的“auto”和“auto_acl”配置)。
ASSET 是用于评估英语句子简化的多参考数据集。该数据集使用同2,359个句子,每个句子与10个众包简化句子相关联。与以前的简化数据集不同,ASSET中的简化涵盖了各种重写变换。
TURKCorpus是一款高质量的简化数据集,每个源(非简单)句子都与8个人工编写的侧重于词汇换词的简化句子相关联。它是GEM中文本简化任务的两个评估数据集之一。它用作验证和测试未涉及句子拆分和删除的基于释义的简化的数据集。
附加许可证信息WikiAuto: CC BY-NC 3.0,ASSET:CC BY-NC 4.0,TURK:GNU通用公共许可证v3.0
主要任务简化
交际目标目标是以更容易被非英语为母语的人理解的方式传达源句子的主要思想。
学术,行业
组织俄亥俄州立大学、谢菲尔德大学、Inria、Facebook AI研究院、伦敦帝国学院、宾夕法尼亚大学、约翰霍普金斯大学
数据集创作者WikiAuto:姜超,Mounica Maddela,Wuwei Lan,杨忠,徐伟;ASSET:Fernando Alva-Manchego,Louis Martin,Antoine Bordes,Carolina Scarton,Benoîıt Sagot和Lucia Specia;TURK:徐伟,Courtney Napoles,Ellie Pavlick,Quanze Chen和Chris Callison-Burch
资金WikiAuto:NSF,ODNI,IARPA,Figure Eight AI和Criteo。ASSET:PRAIRIE研究所,ANR。TURK:NSF
谁将数据集添加到GEM中?GEM v1的WikiAuto、ASSET和TURK有单独的数据卡片。Dhruv Kumar和Mounica Maddela做出了贡献。数据加载器的初始版本由Yacine Jernite编写。Sebastian Gehrmann合并和扩展了数据卡片,并将加载器迁移到v2基础设施中。
底层数据集具有广泛的次要注释,可以与GEM版本结合使用,为了简化格式,我们省略了这些注释,使其转换为可以由seq2seq模型使用的格式。
示例实例{ 'source': 'In early work, Rutherford discovered the concept of radioactive half-life , the radioactive element radon, and differentiated and named alpha and beta radiation .', 'target': 'Rutherford discovered the radioactive half-life, and the three parts of radiation which he named Alpha, Beta, and Gamma.' }数据拆分
在WikiAuto中,用作训练和验证集的提供了以下拆分:
Tain | Dev | Test | |
---|---|---|---|
Total sentence pairs | 373801 | 73249 | 118074 |
Aligned sentence pairs | 1889 | 346 | 677 |
Dev | Test | Total | |
---|---|---|---|
Input Sentences | 2000 | 359 | 2359 |
Reference Simplifications | 20000 | 3590 | 23590 |
Dev | Test | Total | |
---|---|---|---|
Input Sentences | 2000 | 359 | 2359 |
Reference Simplifications | 16000 | 2872 | 18872 |
在我们的设置中,我们使用WikiAuto作为训练/验证语料库,ASSET和TURK作为测试语料库。ASSET和TURK具有相同的输入,但参考风格不同。因此,研究人员可以根据模型应该学习的策略进行有针对性的评估。
WikiAuto是目前最大的开放文本简化数据集。ASSET和TURK是与WikiAuto兼容的高质量测试集。
类似的数据集是
独特的语言覆盖否
与GEM其他数据集的不同之处它的独特设置带有多个测试集使得该任务有趣,因为它可以评估采用不同方式进行简化的多个生成和系统。
数据集所衡量的能力简化
是
GEM的修改其他
修改的细节我们删除了次要注释,专注于简单的输入-输出格式,并组合不同的子数据集。
有其他拆分吗?是
拆分信息我们根据源句子的句法复杂性对原始测试集进行了拆分。为了对句法复杂性进行表征,我们使用 Covington et al. (2006) 提出的8级发展水平(d-level)划分,并使用 Lu, Xiaofei (2010) 的实现。因此,我们将原始测试集分为8个子集,对应于分配给源句子的8个d级。数据集的每个水平上的实例数量和平均d级如下:
Total nb. sentences | L0 | L1 | L2 | L3 | L4 | L5 | L6 | L7 | Mean Level |
---|---|---|---|---|---|---|---|---|---|
359 | 166 | 0 | 58 | 32 | 5 | 28 | 7 | 63 | 2.38 |
目标是评估在简化具有不同句法结构和复杂性的源句子时的性能。
近期有一些基于监督( Martin et al., 2019 , Kriz et al., 2019 , Dong et al., 2019 , Zhang and Lapata, 2017 )和无监督( Martin et al., 2020 , Kumar et al., 2020 , Surya et al., 2019 )的文本简化模型可以作为基准使用。
专业术语自动评估使用的常见度量是SARI (Xu et al., 2016) 。
简化
指标其他:其他指标,BLEU
其他指标SARI:一种简化度量,将添加、删除和保留的单词的“好处”纳入考虑。
提出的评估标准WikiAuto和ASSET的原始作者使用人工评估来评估流畅性、适用性和简单性(详细说明见论文)。对于TURK,作者衡量了语法性,意义保留性和简化增益(论文中有详细说明)。
是否有以前的结果?否
Wiki-Auto提供了一个新版本的维基百科语料库,它更大,包含的缺陷对少,还有比以前的WIKILARGE数据集更复杂的重写。
ASSET的创建旨在改进对句子简化的评估。它使用与 (Xu et al., 2016) 数据集相关的相同输入句子。TurkCorpus的2,359个输入句子是从 (Zhu et al., 2010) 数据集,即2009年8月22日的维基百科版本中选择的样本,“标准”(不简单)的句子。 TurkCorpus的句子被选择为具有类似长度的句子 (Xu et al., 2016) 。关于采样策略没有提供进一步的信息。
TurkCorpus数据集的开发是为了解决来自标准Wikipedia和简单Wikipedia的句子对的一些问题:大部分句子是不对齐的,或者实际上并不简单 (Xu et al., 2016) 。但是,TurkCorpus主要关注了词汇换词,因此不能用于评估涉及压缩(删除)或句子拆分的简化。相反,HSplit (Sulem et al., 2018) 只能用于评估句子拆分。ASSET的参考句子包括更多种类的句子重写策略,包括拆分、压缩和换句话说。给予评注者单个类型的转换示例,以及同时使用所有三个转换的示例,但是允许他们决定在任何给定的句子中使用哪些转换。
以下是说明TurkCorpus、HSplit和ASSET之间差异的示例:
原始句子:他在伦敦定居,主要致力于实际教学。
TurkCorpus:他在伦敦扎根,主要致力于实际教学。
HSplit:他在伦敦定居。他主要致力于实际教学。
ASSET: 他住在伦敦。他是一位教师。
交流目标目标是使用更简单的词汇和语法来传达与源句子相同的信息。
来源于不同的来源是
来源细节维基百科
找到的
它是在哪里找到的?单个网站
语言生产者数据集使用维基百科的语言:提供了一些有关人口统计信息 here 。
数据验证没有进行验证
是否对数据进行过滤?通过算法进行过滤
过滤标准作者提到他们“使用改进版本的 WikiExtractor 库 从2019/09维基百科转储中提取了138,095个文章对(总共10,123对句子)。 SpaCy 库被用于句子拆分。
是
标注人数11 < n < 50
标注人员资格WikiAuto(Figure Eight):未提供任何有关众包工人的 demographic 注释信息。
ASSET(MTurk):
TURK(MTurk):
1
每个测试示例的标注者5
注释服务?是
哪个注释服务亚马逊机械土耳其语,Appen
注释值WikiAuto:用于500个随机选择的文档对(共10,123个句子对)对句子对进行了众包标注。作者根据各种相似性度量从英语维基百科为每个简单维基百科句子预先选择了几个对齐候选项,然后要求众包工人对这些句子对进行注释。最后,他们在这个手动标注的数据集上训练了他们的对齐模型,以获得自动对齐的句子(共138,095个文档对,488,332个句子对)。对于众包工人的人口统计注释信息没有提供。参与注释的平台是Figure Eight(现在是Appen)。
ASSET:注释者获得的指示可在论文中找到。
TURK:参考句子是从Amazon Mechanical Turk进行众包的。要求注释者提供简化,同时不丢失任何信息或拆分输入句子。TURKCorpus的论文中没有提供其他人口统计或补偿信息。在论文中提供了给注释者的指示。
是否有质量控制?没有
是
同意政策细节Figure Eight和Amazon Mechanical Turk的注释者同意根据协议放弃其数据的权利。
不包含PII
不包含PII的原因由于数据集是基于维基百科/简单维基百科创建的,因此数据集中包含的所有信息已经在公共领域中。
否
没有
不满足
是
偏见分析工作的链接和摘要该数据集可能包含一些社会偏见,因为输入句子基于维基百科。研究表明,英语维基百科中存在性别偏见, (Schmahl et al., 2020) 和种族偏见 (Adams et al., 2019)
所有数据都在公共领域中。
开放许可证-允许商业使用
语言数据上的版权限制开放许可证-允许商业使用
该数据集可能包含一些社会偏见,因为输入句子基于维基百科。研究表明,英语维基百科中存在性别偏见 (Schmahl et al., 2020) 和种族偏见 (Adams et al., 2019) 。
不适用于的应用程序由于测试数据集只包含2,359个从维基百科衍生出的句子,因此仅限于维基百科上存在的小部分主题。