数据集:

webnlg/challenge-2023

英文

WebNLG 数据集卡片

数据集概述

WebNLG 2023 挑战专注于四种资源匮乏的语言,这些语言在文本生成研究中严重缺乏代表性,即马耳他语、爱尔兰语、布列塔尼语和威尔士语。此外,WebNLG 2023 还加入了在 WebNLG 2020 中首次出现的俄语

这个挑战主要关注于 RDF 到文本的生成,类似于 WebNLG 2017,但是目标是布列塔尼语、爱尔兰语、马耳他语、威尔士语和俄语;

挑战的目标是将数据映射到文本。训练数据包括了由从 DBpedia 中提取的三元组和这些三元组的言说的数据/文本对。

例如,给定四个 RDF 三元组:

<entry category="Company" eid="Id21" shape="(X (X) (X) (X) (X))" shape_type="sibling" size="4">
    <modifiedtripleset>
        <mtriple>Trane | foundingDate | 1913-01-01</mtriple>
        <mtriple>Trane | location | Ireland</mtriple>
        <mtriple>Trane | foundationPlace | La_Crosse,_Wisconsin</mtriple>
        <mtriple>Trane | numberOfEmployees | 29000</mtriple>
    </modifiedtripleset>
</entry>

目标是生成一个文本,比如(英文文本):

Trane, which was founded on January 1st 1913 in La Crosse, Wisconsin, is based in Ireland. It has 29,000 employees.

或者(俄语文本):

Компания "Тране", основанная 1 января 1913 года в Ла-Кроссе в штате Висконсин, находится в Ирландии. В компании работают 29 тысяч человек.

正如示例所示,这个任务涉及特定的自然语言生成子任务,比如句子分割(如何将输入数据分块成句子)、词汇化(DBpedia 属性的词汇化)、聚合(如何避免重复)和表面实现(如何构建一个句法正确且自然的文本)。

支持的任务和排行榜

数据集支持结构化到文本任务,这个任务要求模型接收一组来自 DBpedia 数据库的 RDF(资源描述格式)三元组(主体、属性、对象)作为输入,并生成表达这些三元组中包含的信息的自然语言句子。

该数据集用于 WebNLG 2023 挑战。

结果使用自动评估指标进行评估: BLEU METEOR ChrF++ TER BERTscore 。此外,结果还会根据本地人评估语法/正确性、适当性/充分性、流畅性/自然度等标准进行评估。

语言

该数据集涵盖了布列塔尼语(br)、威尔士语(cy)、爱尔兰语(ga)、马耳他语(mt)和俄语(ru)语言。

数据集结构

数据实例

一个典型的示例包含了原始的 RDF 三元组集合,一个经过修改的版本,呈现给众包工作者以及这组三元组的可能化语言表达:

{'category': 'Airport',
 'size': 1,
 'eid': '1',
 'original_triple_sets': {'otriple_set': [['Aarhus_Airport | cityServed | "Aarhus, Denmark"@en']]},
 'modified_triple_sets': {'mtriple_set': [['Aarhus_Airport | cityServed | "Aarhus, Denmark"']]},
 'shape': '(X (X))',
 'shape_type': 'NA',
 'lex': {'comment': ['good', 'good', '', ''],
  'lid': ['Id1', 'Id2', 'Id3', 'Id3'],
  'text': ['Aarhus a zo an aro-vezh Aarhus.',
   "Aarhus a servijit ar c'hêr Aarhus.",
   'The Aarhus is the airport of Aarhus, Denmark.',
   'Aarhus Airport serves the city of Aarhus, Denmark.'],
  'lang': ['br', 'br', 'en', 'en']}}

数据字段

实例中包含以下字段:

  • category : RDF 三元组中出现的 DBpedia 实体的类别。
  • eid : 示例 ID,每个类别的每个拆分中是唯一的。
  • size : 三元组集合中的 RDF 三元组数量。
  • shape : (v2 版本以后) 每个 RDF 三元组集合都是一棵树,通过其形状和形状类型来特征化。shape 是树的字符串表示,带有嵌套的括号,其中 X 是一个节点(参见 Newick tree format
  • shape_type : (v2 版本以后) 树的类型,可以是:chain(一个三元组的对象是另一个三元组的主语);sibling(具有共享主语的三元组);mixed(同时包含链式和兄弟类型)
  • test_category : (对于 webnlg_challenge_2017 和 v3 ) 表示 RDF 三元组集合是否在训练集中出现。测试集有几个拆分:有参考文献和无参考文献,以及针对 RDF-文本生成 / 语义解析。
  • lex : 词汇化,包括:
    • text : 要预测的文本。
    • lid : 一个词汇化 ID,每个示例唯一。
    • comment : 词汇化由众包工作者评价为好或坏
    • lang : (对于 release_v3.0_ru ) 使用的语言,因为原始的英文文本保留在俄语版本中。

数据拆分

数据集分为训练集和验证集:

language train validation
br 13211 1399
cy 13211 1665
ga 13211 1665
mt 13211 1665
ru 5573 790

数据集创建

策划原理

WebNLG 数据集的创建旨在促进(i)RDF 口语化器和(ii)能够处理各种语言构造的微规划器的开发。该数据集旨在涵盖不同领域(“类别”)的知识。相同的属性和实体可以出现在多个类别中。

源数据

数据是从原始的 DBpedia 三元组中编译而来的。 This paper 解释了如何选择这些三元组。

初始数据收集和规范化

从 DBpedia 提取的初始三元组进行了多种修改。有关已进行的最频繁修改的详细信息,请参见 official documentation 。一个原始的三元组集和一个修改过的三元组集通常表示一对一的映射关系。然而,在某些情况下,存在一对多的映射,即多个原始三元组集被映射到一个修改过的三元组集。

根据 RDF 树构建实体列在 this file 中。

2020 年 WebNLG 的英文数据集(v3.0)培训部分包含了 16 个不同的 DBpedia 类别的数据文本对:

  • 2017 版本中的 10 个已知类别:机场、宇航员、建筑、城市、漫画角色、食物、纪念碑、体育队、大学和书籍。
  • 2017 年未知的 5 个类别,现在是已知的类别:运动员、艺术家、天体、交通工具、政治家。
  • 1 个新的类别:公司。

俄语数据集(v3.0)包括 9 个不同类别的数据文本对:机场、宇航员、建筑、天体、漫画角色、食物、纪念碑、体育队和大学。

资源语言的生成者是谁?

没有源文本,所有的文本材料都是在注释过程中编制的。

注释

注释过程

注释员首先被要求创建通过单个三元组言说的句子。在第二轮中,注释员被要求将单个三元组的句子组合成涵盖 2 个三元组的句子。以此类推,直到 7 个三元组。为了确保注释质量,进行了质量检查。详见 the dataset paper 中的第 3.3 节。

俄语数据是使用机器翻译从英语翻译过来的,然后由众包工作者进行了后期编辑。详见 this paper 中的第 2.2 节。

注释者是谁?

所有参考文献都是通过众包平台(CrowdFlower/Figure 8 和 Amazon Mechanical Turk)收集的。对于俄语,使用 Yandex.Toloka 众包平台进行了后期编辑。

个人和敏感信息

无论数据集的发布还是注释过程都不涉及收集或共享任何个人/人口统计信息。

使用数据的注意事项

数据集的社会影响

我们预计这个数据集或任务不会有特别的负面社会影响。

积极影响:能够从 RDF 数据生成高质量的文本将允许使这些数据对普通用户更容易访问,从知识库(如 DBpedia)中提取信息来丰富现有文本,或者描述、比较和关联这些知识库中存在的实体。

偏见讨论

这个数据集是使用 DBpedia RDF 三元组创建的,自然会存在维基百科中发现的某些偏见,比如某些形式的性别偏见。

entities 的选择,即由 RDF 树描述,没有受到控制。因此,它们可能包含性别偏见;例如,由 RDF 三元组描述的所有宇航员都是男性。因此,在文本中,代词 he/him/his 出现的频率更高。同样,实体可能更多与西方文化相关,而不是其他文化。

其他已知限制

众包参考文献的质量有限,特别是在收集的文本的流畅度/自然度方面。

俄语数据是通过机器翻译,然后由众包工作者进行后期编辑的,因此有些例子可能仍然存在与翻译有关的问题。

其他信息

数据集策划者

数据集的主要策划者是 Anastasia Shimorina(法国洛林大学 / LORIA)。在 WebNLG 的发布过程中,有几位人员为其建设做出了贡献:Claire Gardent(法国国家科学研究中心 / LORIA)、Shashi Narayan(Google)、Laura Perez-Beltrachini(爱丁堡大学)、Elena Khasanova 和 Thiago Castro Ferreira(巴西联邦米纳斯吉拉斯联邦大学)。该数据集的构建由法国国家研究机构(ANR)资助。

许可信息

数据集采用 cc-by-nc-sa-4.0 许可。源 DBpedia 项目使用 cc-by-sa-3.0 和 gfdl-1.1 许可。

引用信息

如果您使用 WebNLG 语料库,请引用:

@inproceedings{web_nlg,
  author    = {Claire Gardent and
               Anastasia Shimorina and
               Shashi Narayan and
               Laura Perez{-}Beltrachini},
  editor    = {Regina Barzilay and
               Min{-}Yen Kan},
  title     = {Creating Training Corpora for {NLG} Micro-Planners},
  booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume
               1: Long Papers},
  pages     = {179--188},
  publisher = {Association for Computational Linguistics},
  year      = {2017},
  url       = {https://doi.org/10.18653/v1/P17-1017},
  doi       = {10.18653/v1/P17-1017}
}

贡献

感谢 @albertvillanova 添加了该数据集。