数据集:

GEM/web_nlg

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

unknown

源数据集:

original
英文

GEM/web_nlg 数据集卡片

主数据卡片链接

你可以在 GEM Website 找到主要的数据卡片。

数据集概述

WebNLG 是一个双语数据集(英语,俄语),包含了大约 450 个不同的 DBpedia 三元组集和短文本。WebNLG 数据最初是为了促进能够生成短文本并处理微观规划(即句子分割和排序,引用表达生成,聚合)的 RDF 语言生成系统的开发而创建的;任务的目标是根据共享实体的 1 至 7 个输入三元组生成文本(因此输入实际上是一个连接的知识图)。该数据集包含大约 17,000 个三元组集和 45,000 个众包文本(英语版),以及 7,000 个三元组集和 19,000 个众包文本(俄语版)。还提供了一个具有在训练过程中未见到的实体和/或属性的具有挑战性的测试集部分。

你可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/web_nlg')

数据加载器可以在 here 找到。

网页

Website

论文

First Dataset Release WebNLG Challenge 2017 Report WebNLG Challenge 2020 Report

作者

数据集的主要策展人是 Anastasia Shimorina(法国洛林大学 / LORIA)。在 WebNLG 的发布过程中,还有一些人对其进行了贡献,包括 Claire Gardent(法国国家科学研究中心 / LORIA)、Shashi Narayan(谷歌,英国)、Laura Perez-Beltrachini(爱丁堡大学,英国)、Elena Khasanova 和 Thiago Castro Ferreira(巴西米纳斯吉拉斯联邦大学)。

数据集概览

在哪里找到数据及其文档

网页

Website

下载

Gitlab

论文

First Dataset Release WebNLG Challenge 2017 Report WebNLG Challenge 2020 Report

BibTex

数据集的初始版本:

@inproceedings{gardent2017creating,
  author = 	"Gardent, Claire
        and Shimorina, Anastasia
        and Narayan, Shashi
        and Perez-Beltrachini, Laura",
  title = 	"Creating Training Corpora for NLG Micro-Planners",
  booktitle = 	"Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
  year = 	"2017",
  publisher = 	"Association for Computational Linguistics",
  pages = 	"179--188",
  location = 	"Vancouver, Canada",
  doi = 	"10.18653/v1/P17-1017",
  url = 	"http://www.aclweb.org/anthology/P17-1017"
}

最新的版本 3.0:

@inproceedings{castro-ferreira20:bilin-bi-direc-webnl-shared,
  title={The 2020 Bilingual, Bi-Directional WebNLG+ Shared Task Overview and Evaluation Results (WebNLG+ 2020)},
  author={Castro Ferreira, Thiago and
                  Gardent, Claire and
          Ilinykh, Nikolai and
          van der Lee, Chris and
          Mille, Simon and
          Moussallem, Diego and
          Shimorina, Anastasia},
  booktitle = {Proceedings of the 3rd WebNLG Workshop on Natural Language Generation from the Semantic Web (WebNLG+ 2020)},
    pages = "55--76",
  year = 	 2020,
  address = 	 {Dublin, Ireland (Virtual)},
  publisher = {Association for Computational Linguistics}}
联系邮箱

webnlg-challenge@inria.fr

有排行榜吗?

排行榜链接

Website

排行榜详情

利用众包参考文本评估模型的输出;排行榜报告 BLEU-4、METEOR、chrF++、TER、BERTScore 和 BLEURT 分数。

语言和预期使用情况

多语言吗?

涉及的语言

俄语,英语

许可证

cc-by-nc-4.0:知识共享署名-非商业性使用国际许可证

预期用途

WebNLG 数据集的创建旨在推广(i)能够处理各种语言结构的 RDF 生成系统和(ii)微观规划。该数据集旨在涵盖不同领域(“类别”)的知识。同样的属性和实体可以出现在多个类别中。

主要任务

数据到文本

交流目标

模型应该用自然语言表述所有提供的输入三元组,并且只有这些三元组。

信用

策展组织类型

学术

策展组织

法国洛林大学 / LORIA、法国国家科学研究中心 / LORIA、英国爱丁堡大学、巴西米纳斯吉拉斯联邦大学

数据集创建者

该数据集的主要策展人是 Anastasia Shimorina(法国洛林大学 / LORIA)。在 WebNLG 的发布过程中,还有一些人对其进行了贡献,包括 Claire Gardent(法国国家科学研究中心 / LORIA)、Shashi Narayan(谷歌,英国)、Laura Perez-Beltrachini(爱丁堡大学,英国)、Elena Khasanova 和 Thiago Castro Ferreira(巴西米纳斯吉拉斯联邦大学)。

资金支持

该数据集的构建得到了法国国家研究机构(ANR)的资助。

谁将数据集添加到了 GEM?

Simon Mille 和 Sebastian Gehrmann 将数据集添加到了 GEM,并撰写了数据卡片。

数据集结构

数据字段

请参阅 official documentation

entry:基准的数据实例。每个 entry 都有五个属性:一个 DBpedia 类别(category)、一个 entry ID(eid)、形状(shape)、形状类型(shape type)和三元组集大小(size)。

  • shape :RDF 树的字符串表示形式,带有嵌套的括号,其中 X 是一个节点(参见 Newick tree format )。

  • shape_type :树形状的类型。我们定义了 identify 三种树形状的类型:

    • chain (一个三元组的对象是另一个三元组的主语);
    • sibling (具有共享主语的三元组);
    • mixed (同时包含 chain 和 sibling 类型)。
  • eid :一个 entry ID。它只在一个类别和一个 size 内唯一。

  • category :一个 DBpedia 类别(如 Astronaut、City、MusicalWork、Politician 等)。

  • size :三元组集中的 RDF 三元组数量。取值范围为 1 到 7。

每个 entry 都有三个字段:originaltripleset、modifiedtripleset 和 lexs。

originaltripleset:从 DBpedia 提取的一组 RDF 三元组。每组 RDF 三元组是一棵树。三元组具有主语-谓词-宾语结构。

modifiedtripleset:呈现给众包工作者的一组 RDF 三元组(有关修改的详细信息,请参见下文)。

原始和修改后的三元组具有不同的目的:原始三元组用于将数据链接到知识库(DBpedia),而修改后的三元组用于确保数据的一致性和同质性。训练模型时,应使用修改后的三元组。

lexs(缩写为 lexicalisations):将三元组用自然语言表示的文本。每个词汇化项都有两个属性:一个注释(comment)和一个词汇化 ID(lid)。默认情况下,注释的值为 good,只有在少数情况下,如果发现一个词汇化不完全匹配三元组集,就会手动将其标记为 toFix。

俄语数据与英语相比,增加了一些可选字段:

<dbpedialinks>:通过 sameAs 属性从 DBpedia 中提取的连接英语和俄语实体的 RDF 三元组。

<links>:为一些实体手动创建的 RDF 三元组,以用作翻译指示器。这里有两种类型:

  • 带有 sameAs 的(Spaniards | sameAs | испанцы)

  • 带有 includes 的(Tomatoes, guanciale, cheese, olive oil | includes | гуанчиале)。大多数是为字符串字面量创建的,以翻译其中的某些部分。

俄语 WebNLG 中的词汇化有一个新参数 lang(值为 en 或 ru),因为原始英文文本保留在俄语版本中(如上例所示)。

示例实例
{
"entry": {
    "category": "Company",
    "size": "4",
    "shape": "(X (X) (X) (X) (X))",
    "shape_type": "sibling",
    "eid": "Id21",
    "lexs": [
        {
        "comment": "good",
        "lex": "Trane, which was founded on January 1st 1913 in La Crosse, Wisconsin, is based in Ireland. It has 29,000 employees.",
        "lid": "Id1"
        }
    ],
    "modifiedtripleset": [
        {
        "subject": "Trane",
        "property": "foundingDate",
        "object": "1913-01-01"
        },
        {
        "subject": "Trane",
        "property": "location",
        "object": "Ireland"
        },
        {
        "subject": "Trane",
        "property": "foundationPlace",
        "object": "La_Crosse,_Wisconsin"
        },
        {
        "subject": "Trane",
        "property": "numberOfEmployees",
        "object": "29000"
        }

    ],
    "originaltriplesets": {
        "originaltripleset": [
            {
            "subject": "Trane",
            "property": "foundingDate",
            "object": "1913-01-01"
            },
            {
            "subject": "Trane",
            "property": "location",
            "object": "Ireland"
            },
            {
            "subject": "Trane",
            "property": "foundationPlace",
            "object": "La_Crosse,_Wisconsin"
            },
            {
            "subject": "Trane",
            "property": "numberOfEmployees",
            "object": "29000"
            }
        ]
    }

    }
}

XML 格式的示例参见 here

数据拆分
English (v3.0) Train Dev Test
triple sets 13,211 1,667 1,779
texts 35,426 4,464 5,150
properties 372 290 220
Russian (v3.0) Train Dev Test
triple sets 5,573 790 1,102
texts 14,239 2,026 2,780
properties 226 115 192

GEM 中的数据集

纳入 GEM 的原因

数据集之所以在 GEM 中是因为

由于受限的生成任务,该数据集可用于评估非常特定和狭窄的生成能力。

类似的数据集

独特的语言覆盖范围

与其他 GEM 数据集的区别

RDF-三元组格式是 WebNLG 独有的。

数据集衡量的能力

表面表达

GEM-特定的策展

是否为 GEM 修改?

GEM 的修改

其他

修改的详细信息

对数据集的主要内容没有进行任何更改。使用了数据集的 version 3.0

是否有其他拆分?

拆分信息

为 WebNLG 添加了 23 个特殊的测试集,12 个用于英语和 11 个用于俄语。对于两种语言,我们从每个类别中比例抽取了约 500 个随机选择的输入来创建训练集和开发集的子集。

对 WebNLG 进行了两种类型的转换:(i)输入数据混乱(英语和俄语)和(ii)数值替换(英语);对于这两种情况,我们随机选择了约 500 个输入的子集。对于(i),将随机重新分配三元组的顺序(每个三元组保持相同的主语-谓词-宾语内部顺序)。对于(ii),更改是根据当前基数值的格式进行的(例如,字母、整数或浮点数)并将其替换为新的随机值。新数字下限为零,上限为给定值的最高 10 的幂(例如,替换 54 会得到介于 0-100 之间的随机值)。浮点值保持精度。

对于两种语言,我们确定了测试集的不同子集,以便我们可以将它们相互进行比较,从而更好地了解结果。目前有 8 种我们做出的选择:

选择 1(size):输入长度。此选择对应于输入中的谓词数量。通过比较不同长度的输入,我们可以了解 NLG 系统处理不同输入大小的能力的程度。下表提供了相关的频率。请注意,比较少于 100 个项的选择可能导致不可靠的比较。

Input length Frequency English Frequency Russian
1 369 254
2 349 200
3 350 214
4 305 214
5 213 159
6 114 32
7 79 29

选择 2(frequency):已见/未见的单个谓词。此选择对应于仅有一个谓词的输入。我们比较了在训练数据中是否已经见到了哪些谓词。下表提供了相关的频率。请注意,此比较仅适用于英语,而不适用于俄语,因为只有一个未见的单谓词的示例。

_ in training Frequency English Frequency Russian
Seen 297 253
Unseen 72 1

选择 3(frequency):已见/未见的谓词组合。此选择检查了所有谓词组合是否已经在训练数据中见过。例如:如果谓词 A 和 B 的组合已见,那意味着在训练数据中有一个由两个三元组组成的输入,其中一个三元组使用谓词 A,另一个使用谓词 B。如果该组合未见,则反之亦然。下表提供了相关的频率。

_ in training Frequency English Frequency Russian
unseen 1295 354
seen 115 494

选择 4(frequency):已见/未见的参数。对于所有输入,检查了所有 arg1 和 arg2 是否在训练阶段中已经见过。对于此选择,“已见”是默认值。只有当某个输入的所有 arg1 实例都未见时,我们才将该输入的 arg1 视为未见。arg2 也是同理。因此,“已见”在这里实际上意味着 arg1 或 arg2 中至少有一部分在输入中已经见过。下表提供了相关的频率。请注意,此比较仅适用于英语,而不适用于俄语,因为几乎没有未见的谓词组合的示例。

Arguments seen in training? Frequency English Frequency Russian
both_seen 518 1075
both_unseen 1177 4
arg1_unseen 56 19
arg2_unseen 28 4

选择 5(shape):重复的主语。对于此选择,子集是基于主语在输入中重复的次数;它仅考虑主语最多重复的次数,也就是说,如果一个主语在一个输入中出现了 3 次,另一个主语出现了 2 次,这个输入将在“3_subjects_same”拆分中。Unique_subjects 意味着所有主语都不同。

Max num. of repeated subjects Frequency English Frequency Russian
unique_subjects 453 339
2_subjects_same 414 316
3_subjects_same 382 217
4_subjects_same 251 143
5_subjects_same 158 56
6_subjects_same 80 19
7_subjects_same 41 12

选择 6(shape):重复的宾语。与上面的主语相同,但针对宾语。重复的宾语情况要少得多,因此这里只有两个类别,unique_objects 和 some_objects_repeated;对于后者,在英语中,我们有多达 3 个共指宾语,在俄语中有 XXX。

Max num. of repeated objects Frequency English Frequency Russian
unique_objects 1654 1099
some_objects_same 125 3

选择 7(shape):重复的谓词。与上面的宾语相同,但针对谓词;英语中可以有最多两个相同的属性,俄语中可以多达 XXX。

Max num. of repeated properties Frequency English Frequency Russian
unique_properties 1510 986
some_properties_same 269 116

选择 8(shape):既作为主语又作为宾语出现的实体。对于此选择,我们将没有任何实体作为主语和宾语的输入分为一组,将一个或多个实体作为主语和宾语都出现在输入中的输入分为另一组。我们在英语中找到两个这样的实体,以及在俄语中多达 XXX 个这样的实体。

Max num. of objects and subjects in common Frequency English Frequency Russian
unique_properties 1322 642
some_properties_same 457 460
拆分动机

鲁棒性

开始任务的步骤

资源指针

数据集构建: main dataset paper RDF triple extraction Russian translation

WebNLG Challenge 2017: webpage paper

WebNLG Challenge 2020: webpage paper

WebNLG 的扩展版本: repository paper

相关研究论文: webpage

往期结果

过去的结果

提议的评估

对于两种语言,参与的系统在多参考情况下进行自动评估。每个英语假设与最多 5 个参考文本进行比较,每个俄语假设与最多 7 个参考文本进行比较。平均而言,英语数据每个测试实例具有 2.89 个参考文本,俄语数据每个实例具有 2.52 个参考文本。

在人工评估中,示例在三元组集大小上均匀抽样,并评估以下维度(在 MTurk 和 Yandex.Toloka 上):

  • 数据覆盖:文本是否包含了数据中呈现的所有谓词的描述?
  • 相关性:文本是否仅描述了在数据中找到的那些谓词(带有相关的主语和宾语)?
  • 正确性:在描述在数据中找到的谓词时,文本是否提到了正确的宾语,并且对该特定谓词充分介绍了主语?
  • 文本结构:文本是否语法正确,结构良好,用可接受的英语语言编写?
  • 流畅度:文本是否自然流畅,形成一个连贯的整体,易于理解?
  • 对于有关指令等的其他信息,请参考原始论文。

    是否有先前的结果?

    其他评估方法

    我们作为 GEM 基准的一部分评估了各种模型。

    相关的先前结果

    结果可以在 GEM website 找到。

    更广泛的社会背景

    对数据集社会影响的先前研究

    基于数据的模型的使用

    是 - 相关任务

    社会影响观察

    我们预计此数据集或任务不会有任何负面的社会影响。

    积极的展望:能够从 RDF 数据生成高质量的文本将使得此数据对普通用户更易访问,用知识库(如 DBpedia)丰富现有文本,描述、比较和联系这些知识库中存在的实体。

    对被服务社群的影响

    是否满足了被服务社群的需求?

    关于偏见的讨论

    是否有文档化的社会偏见?

    分析工作的链接和摘要

    此数据集是使用 DBpedia RDF 三元组创建的,这些三元组自然地展示了在 Wikipedia 中发现的某些偏见,例如某些形式的性别偏见。

    选择使用 entities 描述的 RDF 树形状时没有进行控制。因此,它们可能包含性别偏见;例如,所有通过 RDF 三元组描述的航天员都是男性。因此,在文本中更频繁地出现了代词 he/him/his。类似地,实体可能更多地与西方文化相关,而不是其他文化。

    语言制造者是否代表了该语言?

    在英语中,数据集仅限于众包评级者所讲的语言。在俄语中,语言受到机器翻译系统的影响,该系统在后期由众包工作者进行了编辑。

    使用数据的注意事项

    PII 风险和责任

    潜在的 PII 风险

    此数据集中没有 PII 信息。

    许可证

    数据集的版权限制

    仅限非商业使用

    语言数据的版权限制

    公共领域

    已知的技术限制

    技术限制

    众包参考文本的质量有限,特别是在文本的流畅性/自然性方面。

    俄语数据使用机器翻译,然后由众包工作者进行了后期编辑,因此某些示例可能仍显示出与坏的翻译有关的问题。

    不适用的应用程序

    此数据集仅涵盖了有限的领域。因此,它不能用作通用的语言生成系统。