数据集:

web_nlg

英文

WebNLG数据集的数据卡

数据集摘要

WebNLG挑战的任务是将数据映射到文本。训练数据由从DBpedia中提取的三元组数据和这些三元组的文本表述组成。例如,给定图中所示的3个DBpedia三元组,目标是生成像(b)这样的文本。

a. (John_E_Blaha birthDate 1942_08_26) (John_E_Blaha birthPlace San_Antonio) (John_E_Blaha occupation Fighter_pilot)
b. John E Blaha, born in San Antonio on 1942-08-26, worked as a fighter pilot

正如示例所示,该任务涉及特定的自然语言生成子任务,例如句子分割(如何将输入数据分割成句子)、词汇化(对DBpedia属性进行词汇化)、聚合(如何避免重复)和表面实现(如何构建一个句法正确和自然的文本)。

支持的任务和排行榜

该数据集支持结构化到文本任务,要求模型接受来自数据库(DBpedia)的RDF(资源描述格式)三元组集合(主题、属性、对象)作为输入,并输出表示三元组中所包含信息的自然语言句子。该数据集支持了两个挑战: WebNLG2017 挑战和 WebNLG2020 挑战。结果按照其对参考结果的 METEOR 进行排序,但排行榜报告了一系列其他指标,包括 BLEU BERTscore BLEURT 。WebNLG2020挑战的v3版本发布( release_v3.0_en , release_v3.0_ru )还支持语义解析任务。

语言

所有版本都包含英语( en )数据。v3版本( release_v3.0_ru )还包含俄语( ru )示例。

数据集结构

数据实例

典型的示例包含原始RDF三元组集合,在众包工人中呈现的修改版本以及该三元组集合的可能词汇化集合:

{'2017_test_category': '',
 'category': 'Politician',
 'eid': 'Id10',
 'lex': {'comment': ['good', 'good', 'good'],
         'lid': ['Id1', 'Id2', 'Id3'],
         'text': ['World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.',
                  'Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.',
                  'Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek.']},
 'modified_triple_sets': {'mtriple_set': [['Abner_W._Sibal | battle | World_War_II',
                                           'World_War_II | commander | Chiang_Kai-shek',
                                           'Abner_W._Sibal | militaryBranch | United_States_Army']]},
 'original_triple_sets': {'otriple_set': [['Abner_W._Sibal | battles | World_War_II', 'World_War_II | commander | Chiang_Kai-shek', 'Abner_W._Sibal | branch | United_States_Army'],
                                          ['Abner_W._Sibal | militaryBranch | United_States_Army',
                                           'Abner_W._Sibal | battles | World_War_II',
                                           'World_War_II | commander | Chiang_Kai-shek']]},
 'shape': '(X (X) (X (X)))',
 'shape_type': 'mixed',
 'size': 3}

数据字段

实例中可以找到以下字段:

  • category:RDF三元组中包含的DBpedia实体的类别。
  • eid:示例ID,每个类别每个拆分中唯一。
  • size:集合中的RDF三元组数量。
  • shape:(自v2起)每组RDF三元组是一棵树,其特征是其形状和形状类型。 shape是树的字符串表示形式,带有嵌套的括号,其中X是一个节点(参见 Newick tree format )。
  • shape_type:(自v2起)是树形状的类型,可以是:链式(一个三元组的对象是另一个三元组的主语);同胞(具有共享主语的三元组);混合(同时存在链式和同胞类型)。
  • test_category:(对于 webnlg_challenge_2017 和 v3 )指示该组RDF三元组是否出现在训练集中。测试集有多个拆分:带有参考和不带参考的,以及用于RDF到文本生成/用于语义解析的。
  • lex:词汇化,包括:
    • text:要预测的文本。
    • lid:词汇化ID,每个示例唯一。
    • comment:词汇化由众包工人评定为好(good)或坏(bad)。
    • lang:(对于 release_v3.0_ru )所用的语言,因为原始英文文本保留在俄文版本中。

与英语相比,俄语数据具有额外的可选字段:

  • dbpedialinks:通过sameAs属性从DBpedia中英文和俄文实体之间提取的RDF三元组。
  • links:为某些实体手动创建的RDF三元组,用作指示器指向词汇化。有两种类型:
    • 使用sameAs的( Spaniards | sameAs | испанцы )
    • 使用includes的( Tomatoes, guanciale, cheese, olive oil | includes | гуанчиале )。这些主要是为了翻译一些字符串文字而创建的。

数据拆分

对于 v3.0 版本:

English (v3.0) Train Dev Test (data-to-text)
triple sets 13,211 1,667 1,779
texts 35,426 4,464 5,150
properties 372 290 220
Russian (v3.0) Train Dev Test (data-to-text)
triple sets 5,573 790 1,102
texts 14,239 2,026 2,780
properties 226 115 192

数据集创建

策划理由

创建WebNLG数据集是为了推动(i)RDF文本化器和(ii)能够处理各种语言结构的微规划器的发展。该数据集旨在涵盖不同领域(“类别”)中的知识。同一属性和实体可以出现在多个类别中。

源数据

数据来自原始的DBpedia三元组。 This paper 解释了如何选择三元组。

Initial Data Collection and Normalization

从DBpedia中提取的初始三元组在多个方面进行了修改。有关最常见的更改,请参阅 official documentation 。原始三元组集和修改后的三元组集通常表示一对一的映射关系。然而,有些情况下存在多对一的映射关系,多个原始三元组集被映射到一个修改后的三元组集中。

作为RDF树的根的实体列在 this file 中。

用于训练的英文WebNLG 2020数据集(v3.0)包括了16个不同的DBpedia类别的数据-文本对:

  • 2017年版本中使用的10个已见类别:Airport、Astronaut、Building、City、ComicsCharacter、Food、Monument、SportsTeam、University和WrittenWork。
  • 2017年未见类别的5个新类别,现在是已见数据的一部分:Athlete、Artist、CelestialBody、MeanOfTransportation、Politician。
  • 1个新类别:Company。

俄语数据集(v3.0)包括9个不同类别的数据-文本对:Airport、Astronaut、Building、CelestialBody、ComicsCharacter、Food、Monument、SportsTeam和University。

Who are the source language producers?

没有源文本,所有文本材料是在注释过程中编制的。

注释

Annotation process

注释者首先被要求创建将单个三元组转化为句子的句子。在第二轮中,注释者被要求将单个三元组句子组合成涵盖2个三元组的句子。依此类推,直到7个三元组。进行质量检查以确保注释的质量。请参阅 the dataset paper 的第3.3节。

俄语数据是使用机器翻译系统从英文翻译而来,然后由众包工人进行后编辑。请参阅 this paper 的第2.2节。

Who are the annotators?

所有参考文献都是通过众包平台(CrowdFlower/Figure 8和亚马逊Mechanical Turk)收集的。对于俄语,使用Yandex.Toloka众包平台进行后编辑。

个人和敏感信息

数据集的发布版本和注释过程都不涉及任何个人/人口统计信息的收集或分享。

使用数据的注意事项

数据的社会影响

我们不预见该数据集或任务会产生任何负面社会影响。

积极展望:能够从RDF数据生成高质量的文本将允许使这些数据更易于泛用用户访问,丰富现有文本以从诸如DBpedia等知识库中提取的信息,或者描述、比较和关联这些知识库中的实体。

偏见讨论

该数据集是使用DBpedia RDF三元组创建的,自然会展示出在维基百科中已知的某些偏见,如某些形式的性别偏见等。

没有对 entities 的选择进行控制,其中描述了RDF树。因此,它们可能包含性别偏见;例如,所有由RDF三元组描述的宇航员都是男性。因此,在文本中,代词he/him/his出现得更频繁。同样,实体可能与西方文化的关联更频繁,而不是其他文化。

其他已知限制

众包参考的质量有限,特别是在所收集文本的流畅性/自然性方面。

俄语数据是通过机器翻译,然后由众包工人进行后编辑的,因此一些示例可能仍存在与糟糕翻译相关的问题。

附加信息

数据集策划者

该数据集的主要策划者是Anastasia Shimorina(洛林大学/洛林计算机科学与自动化研究所,法国)。在WebNLG的发布过程中,有几位人员参与了构建:Claire Gardent(法国国家科研中心/洛林计算机科学与自动化研究所,法国),Shashi Narayan(Google,英国),Laura Perez-Beltrachini(爱丁堡大学,英国),Elena Khasanova和Thiago Castro Ferreira(巴西米纳斯吉拉斯联邦大学)。该数据集的构建由法国国家研究院(ANR)资助。

许可信息

该数据集使用了 cc-by-nc-sa-4.0 许可证。源DBpedia项目使用了 cc-by-sa-3.0 和 gfdl-1.1 许可证。

引用信息

  • 如果您使用了WebNLG语料库,请引用:
@inproceedings{web_nlg,
  author    = {Claire Gardent and
               Anastasia Shimorina and
               Shashi Narayan and
               Laura Perez{-}Beltrachini},
  editor    = {Regina Barzilay and
               Min{-}Yen Kan},
  title     = {Creating Training Corpora for {NLG} Micro-Planners},
  booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume
               1: Long Papers},
  pages     = {179--188},
  publisher = {Association for Computational Linguistics},
  year      = {2017},
  url       = {https://doi.org/10.18653/v1/P17-1017},
  doi       = {10.18653/v1/P17-1017}
}
  • 如果您使用特定的 release_v2_constrained ,请引用:
@InProceedings{shimorina2018handling,
  author = 	"Shimorina, Anastasia
        and Gardent, Claire",
  title = 	"Handling Rare Items in Data-to-Text Generation",
  booktitle = 	"Proceedings of the 11th International Conference on Natural Language Generation",
  year = 	"2018",
  publisher = 	"Association for Computational Linguistics",
  pages = 	"360--370",
  location = 	"Tilburg University, The Netherlands",
  url = 	"http://aclweb.org/anthology/W18-6543"
}

贡献

感谢 @Shimorina @yjernite 添加该数据集。