数据集:

GEM/surface_realisation_st_2020

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

许可:

cc-by-2.5
英文

GEM/surface_realisation_st_2020 数据集卡片

链接到主数据卡片

主数据卡片可在 GEM Website 找到。

数据集概述

此数据集是多语言表面生成任务的一部分,模型通过获得完整或部分的通用依赖结构来重建自然语言。该数据集支持11种语言。

您可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/surface_realisation_st_2020')

数据加载器可以在 here 找到。

网站 Website

论文 ACL Anthology

作者:Simon Mille(Pompeu Fabra大学);Leo Wanner(Pompeu Fabra大学);Anya Belz(Brighton大学);Bernd Bohnet(Google Inc.);Thiago Castro Ferreira(Minas Gerais联邦大学);Yvette Graham(ADAPT / Trinity College Dublin)

数据集概览

数据和文档的获取方式

网页

Website

下载

Website

论文

ACL Anthology

BibTex
@inproceedings{mille-etal-2020-third,
    title = "The Third Multilingual Surface Realisation Shared Task ({SR}{'}20): Overview and Evaluation Results",
    author = "Mille, Simon  and
      Belz, Anya  and
      Bohnet, Bernd  and
      Castro Ferreira, Thiago  and
      Graham, Yvette  and
      Wanner, Leo",
    booktitle = "Proceedings of the Third Workshop on Multilingual Surface Realisation",
    month = dec,
    year = "2020",
    address = "Barcelona, Spain (Online)",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2020.msr-1.1",
    pages = "1--20",
    abstract = "This paper presents results from the Third Shared Task on Multilingual Surface Realisation (SR{'}20) which was organised as part of the COLING{'}20 Workshop on Multilingual Surface Realisation. As in SR{'}18 and SR{'}19, the shared task comprised two tracks: (1) a Shallow Track where the inputs were full UD structures with word order information removed and tokens lemmatised; and (2) a Deep Track where additionally, functional words and morphological information were removed. Moreover, each track had two subtracks: (a) restricted-resource, where only the data provided or approved as part of a track could be used for training models, and (b) open-resource, where any data could be used. The Shallow Track was offered in 11 languages, whereas the Deep Track in 3 ones. Systems were evaluated using both automatic metrics and direct assessment by human evaluators in terms of Readability and Meaning Similarity to reference outputs. We present the evaluation results, along with descriptions of the SR{'}19 tracks, data and evaluation methods, as well as brief summaries of the participating systems. For full descriptions of the participating systems, please see the separate system reports elsewhere in this volume.",
}
联系人姓名

Simon Mille

联系人电子邮件

sfmille@gmail.com

有排行榜吗?

语言和使用目的

是否多语言?

涵盖方言

无多方言。

涵盖的语言

阿拉伯语,中文,英语,法语,印地语,印度尼西亚语,日语,韩语,葡萄牙语,俄语,西班牙语

语言归属

未知

许可证

CC-BY-2.5:知识共享署名2.5通用

用途

该数据集旨在用于训练模型解决多个自然语言生成的子任务,例如功能词引入,形态一致性解决,词序确定和词形生成。

关于许可证的备注:该数据集具有多个许可证,因为每个原始数据集都有自己的许可证类型。除一种外,所有数据集都是CC-BY及其子类,另一种是GPL(法国Sequoia)。

主要任务

数据到文本

交际目标

模型能够根据不同的抽象输入引入表面特征(语法、形态和拓扑)。数据集涵盖了各种领域(新闻、博客、论坛、维基百科页面等)。

信用

策展组织类型

工业,学术

策展组织

Pompeu Fabra大学,Google Inc.,布莱顿大学,Minas Gerais联邦大学,ADAPT / Trinity College Dublin

数据集创建者

Simon Mille(Pompeu Fabra大学);Leo Wanner(Pompeu Fabra大学);Anya Belz(布莱顿大学);Bernd Bohnet(Google Inc.);Thiago Castro Ferreira(Minas Gerais联邦大学);Yvette Graham(ADAPT / Trinity College Dublin)

资助

主要来自欧盟资助的H2020项目

添加到GEM的人员

Simon Mille(Pompeu Fabra大学)

数据集结构

数据字段

input (string):此字段包含以CoNLL-U格式表示的输入树;CoNLL-U格式是一种每行一个词的格式,包含以下10个以制表符分隔的列(详情见 here ):[1] 位置,[2] 词元,[3] 词形,[4] 词性,[5] 细粒度词性(如果有),[6] 功能(FEATS),[7] 主要词,[8] 依存关系,[9] 其他依存信息和[10] 元数据。对于表面任务,输入是给定语言的通用依赖树,其中单词顺序被打乱并且表面形式被删除(仅有词元可用);对于深层任务,输入是从表面输入派生的树,其中仅包含内容词之间的谓词-论元关系(功能词被删除),而没有任何形态一致性信息。

target_tokenized (string):此字段包含生成的目标句子,其中非初始和非最终的标记之间由两个空格包围。此输出通常用于自动评估。

target (string):此字段包含原始目标句子。

gem_id (string):唯一标识符。

sentence_id (string):UD数据集中句子的原始ID。

结构原因

选择了输入的结构(CoNLL-U)是根据解析的标准和原始UD数据集的提供的格式。

标签选择的依据?

表面任务的输入标签是UD树库中的原始标签;依赖关系的标签请参阅 here ,特征的标签请参阅 here ,以及词性标签的标签请参阅 here

深层任务的输入标签是表面任务的词性标签和特征的子集,关系方面是使用了通用谓词-论元关系并加入了一些特定关系以捕获协同和命名实体关系。

示例实例
{"input": "1\tGoogle\t_\tPROPN\tNNP\tNumber=Sing\t5\tnsubj\t_\t_\n2\t\t_\tPUNCT\t.\tlin=+1\t5\tpunct\t_\t_\n3\tinto\t_\tADP\tIN\t_\t6\tcase\t_\t_\n4\tif\t_\tSCONJ\tIN\t_\t5\tmark\t_\t_\n5\tmorph\t_\tVERB\tVBD\tMood=Ind|Tense=Past|VerbForm=Fin\t7\tadvcl\t_\t_\n6\tGoogleOS\t_\tPROPN\tNNP\tNumber=Sing\t5\tobl\t_\t_\n7\twhat\t_\tPRON\tWP\tPronType=Int\t0\troot\t_\t_", "target_tokenized": "What if Google Morphed Into GoogleOS ?", "target": "What if Google Morphed Into GoogleOS?", "gem_id": "GEM-surface_realisation_st_2020-T1-test-en_ewt-ud-test-0", "sentence_id": ""}
数据拆分

数据集中有119个拆分:

  • 29个训练集,对应于20个UD数据集(11种语言),其中9个既有表面输入又有深层输入(3种语言);
  • 29个开发集,对应于上述29个训练集;
  • 29个测试集,对应于上述数据;
  • 4个域外测试集,3个表面输入和一个深层输入(提供了PUD域外数据集的3种语言);
  • 9个在域内自动解析的测试集,6个表面输入和3个深层输入(为了好评估已有良好的UD解析器的6种语言);
  • 9个在域外自动解析的测试集,6个表面输入和3个深层输入(为了好评估我们能够创建干净的维基百科文本并具有良好的UD解析器的6种语言)。
分割标准

如上所述,以增加清晰度。

异常值通常是指对应于非常长的句子(例如英语中的159个单词,而每个句子的平均单词数约为25)的输入。

GEM中的数据集

纳入GEM的原因

为何将该数据集纳入GEM?

该数据集包含不同语系的语言以及一些不常用于自然语言生成的语言(例如阿拉伯语、印尼语、韩语、印地语)。它提出了两个任务,可以分别或同时解决,在不同的难度级别上:最表面的任务(T1)包括对一些树进行排序和屈折变化;而更深层次的任务(T2)包括了额外的任务,如定义句法结构、引入功能词和形态一致性信息等。这两个任务都可以用于开发流水线的自然语言生成架构模块。T1的评估相对较简单:对于某些语言,BLEU效果很好,因为所有单词都在输入中,并且对于给定的句法树,只有很少的单词顺序可能。但是,对于T2的评估更具挑战性,因为对于一个特定的输入,可能有更多的输出是正确的。

数据集大小有很大的变化范围,既有干净的数据,也有噪声数据,还有不同语言的平行数据,并且有许多已有的系统输出可用作基线。

类似数据集

唯一覆盖语言吗?

与其他GEM数据集的区别

这可能是唯一一个从谓词-论元结构和句法结构开始生成过程的数据集。它还具有一些语言的平行数据集(来自PUD平行注释)。

数据集可衡量的能力

句法化、功能词引入、词序分辨率、一致性分辨率、形态屈折

GEM特定的策展

是否为GEM修改?

是否有其他拆分?

开始使用任务

资源指针

Website

技术术语

Syntacticisation:预测句法

历史结果

历史结果

评估模型能力

句法化、功能词引入、词序分辨率、形态一致性分辨率、形态屈折

指标

BLEU,BERT-Score,其他:其他指标

其他指标

NIST:以各种方式加权更少频繁的n-gram相似性度量,认为这些n-gram更具信息性。

标准化编辑距离(DIST):反向、标准化的基于字符的字符串编辑距离,从计算将系统输出转换为(单个)参考文本所需的最小字符插入、删除和替换(每个都计费为1)。

提出的评估方法

BLEU、NIST、BERTScore和DIST仅旨在以不同的方式计算预测句子与参考句子之间的相似性。

人工评估还使用了两个附加标准,阅读性和意思相似性。阅读性评估将评估的陈述为:“文本流畅,没有语法错误和尴尬的结构。”在意思相似性评估中,将评估系统输出(“黑色文本”)与参考句子(“灰色文本”)进行比较的陈述为:“灰色文本的意思由黑色文本充分表达。”

是否有先前的结果?

其他评估方法

同上。

相关的先前结果

数据集策展

原始策展

原始策展理由

该数据集是在表面实现共享任务系列的背景下创建的。

交际目标

该数据集的目标是允许训练系统执行与表面实现相关的任务(引入功能词、句法化、解决形态一致性、词序分辨率、屈折生成)。

来自不同来源的数据?

来源详情

每个使用的20个UD数据集来自各种来源,在每个UD树库的个别页面中都列出了所有来源( https://universaldependencies.org/ )。

为任务创建了额外的测试集,并从维基百科页面中获取了6种语言的文本。

语言数据

语言数据如何获取?

找到

在哪里找到?

多个网站

语言生成器

多个数据集存在许多语言生成器。

涵盖的主题

多个数据集涵盖了多种主题。

数据验证

未验证

数据预处理

文本数据已经进行解记号化,以创建自动评估的参考(几种语言不使用空格来分隔单词,而在不分隔句子中使用词汇数量指标没有意义)。

是否进行了数据过滤?

混合

过滤条件

对于为共享任务创建的维基百科测试集,经过广泛的筛选以获得合理的文本质量。跳过包含特殊字符、包含异常标记(例如ISBN)或具有不平衡引号或括号的句子。此外,仅选择有超过5个标记且小于50个标记的句子。在初始筛选之后,剩下一些畸形句子。为了去除这些,使用BERT对句子进行评分,并保留得分靠前的一半句子。最后,通过手动检查,确定了进一步减少畸形句子的模式和表达式。

结构化注释

是否有其他注释?

注释服务?

同意

是否有同意政策?

使用数据的理由

通用依赖数据在解析的共享任务中已经被使用过,因此重复利用它来进行生成是合理的。

私人识别信息(PII)

包含PII吗?

不太可能

任何PII识别?

无识别

维护

是否有维护计划?

更广泛的社会背景

对数据集社会影响的先前研究

基于数据的模型的使用

对弱势群体的影响

是否满足弱势群体的需求?

数据集如何满足需求

由于UD数据集创建者的原始工作,表面实现数据集涵盖了一些在自然语言生成中可能未被充分关注的语言,例如阿拉伯语、印地语、印尼语和韩语。

对偏见的讨论

是否有记录的社会偏见?

语言生成器是否代表了该语言?

非常可能数据集的语言生成器分布没有完全在各个数据集中得到体现。

使用数据的注意事项

PII风险和责任

潜在的PII风险

无风险

许可证

数据集上的版权限制

多个许可证,开放许可证-商业使用允许

语言数据的版权限制

多个许可证,开放许可证-商业使用允许

已知的技术限制

技术限制

深层跟踪的输入(谓词-论元结构)的质量不是完美的,它们是使用手工设计的语法从黄金或预测的句法解析中自动派生的。

不适合的应用

数据集可能不适合训练生成“特殊”语言的工具(例如诗歌、儿童写作等)。

不推荐的用例

需要思考 :)