数据集:

enriched_web_nlg

子任务:

rdf-to-text

语言:

de en

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

found
英文

WebNLG数据集数据卡

数据集摘要

WebNLG挑战涉及将数据映射到文本。训练数据由从DBpedia中提取的一组三元组和这些三元组的语言描述组成。例如,给出图(a)中显示的3个DBpedia三元组,目标是生成一个如图(b)所示的文本。它是自然语言生成(NLG)领域的宝贵资源和基准测试。然而,和其他NLG基准测试一样,它只包含一组平行的原始表示和对应的文本实现。本工作旨在为NLG流水线架构中常见任务的开发和评估提供数据的中间表示,例如语篇排序、词汇化、聚合和指代表达生成。

支持的任务和排行榜

该数据集支持一个other-rdf-to-text任务,该任务要求模型接受一组来自DBpedia(一个数据库)的RDF(资源描述格式)三元组(主语、属性、对象的形式)作为输入,并输出表示三元组中包含的信息的自然语言句子。

语言

数据集以英文(config en)和德文(config de)两个版本呈现。

数据集结构

数据实例

一个典型的示例包含原始的RDF三元组集合,一份修改后提供给众包工作者的版本,以及这组三元组的可能的语言描述:

{ 'category': 'Politician',
 'eid': 'Id10',
 'lex': {'comment': ['good', 'good', 'good'],
         'lid': ['Id1', 'Id2', 'Id3'],
         'text': ['World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.',
                  'Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.',
                  'Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek.']},
 'modified_triple_sets': {'mtriple_set': [['Abner_W._Sibal | battle | World_War_II',
                                           'World_War_II | commander | Chiang_Kai-shek',
                                           'Abner_W._Sibal | militaryBranch | United_States_Army']]},
 'original_triple_sets': {'otriple_set': [['Abner_W._Sibal | battles | World_War_II', 'World_War_II | commander | Chiang_Kai-shek', 'Abner_W._Sibal | branch | United_States_Army'],
                                          ['Abner_W._Sibal | militaryBranch | United_States_Army',
                                           'Abner_W._Sibal | battles | World_War_II',
                                           'World_War_II | commander | Chiang_Kai-shek']]},
 'shape': '(X (X) (X (X)))',
 'shape_type': 'mixed',
 'size': 3}

数据字段

实例中可以找到以下字段:

  • category:RDF三元组中出现的DBpedia实体的类别。
  • eid:示例ID,每个类别上的每个拆分独一无二。
  • size:集合中的RDF三元组数量。
  • shape:(仅适用于v3)每组RDF三元组都是一个树,其特征是其形状和形状类型。shape是表示树的带有嵌套括号的字符串,其中X是一个节点(请参见 Newick tree format )。
  • shape_type:(仅适用于v3)是树形状的类型,可以是chain(一个三元组的对象是另一个三元组的主语)、sibling(具有共享主语的三元组)或mixed(同时存在chain和sibling类型)。
  • 2017_test_category:(对于webnlg_challenge_2017)告知RDF三元组集合是否出现在训练集中。
  • lex:词汇化,包括:
    • text:待预测的文本。
    • lid:词汇化ID,每个示例唯一。
    • comment:词汇化由众包工作者评级,可以是good(好)或bad(差)。

数据拆分

英文版本包含train、test和dev拆分;德文版本只有train和dev。

数据集创建

策划理由

自然语言生成(NLG)是将非语言数据自动转换为语言输出格式的过程(Reiter和Dale,2000;Gatt和Krahmer,2018)。最近,该领域的可用专注数据资源增加了,如E2E(Novikova等,2017)、ROTOWIRE(Wise-man等,2017)和WebNLG(Gardent等,2017a,b)语料库。尽管这些最近的发布对于整个NLG社区来说是非常有价值的资源,但它们都设计用于与端到端NLG模型一起使用。因此,它们只包含一组平行的原始表示和对应的文本实现。没有提供中间表示,因此研究人员无法直接使用它们开发或评估NLG流水线(Reiter和Dale,2000)中的常见任务,如语篇排序、词汇化、聚合、指代表达生成等。此外,这些新的语料库,像许多其他计算语言学资源一样,仅提供英文版本,限制了对其他语言的NLG应用开发。

源数据

初始数据收集和归一化

[需要更多信息]

语言的来源是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

该数据集使用cc-by-nc-sa-4.0许可证。源DBpedia项目使用cc-by-sa-3.0和gfdl-1.1许可证。

引用信息

  • 如果使用了Enriched WebNLG语料库,请引用:
@InProceedings{ferreiraetal2018,
  author = 	"Castro Ferreira, Thiago
        and Moussallem, Diego
        and Wubben, Sander
        and Krahmer, Emiel",
  title = 	"Enriching the WebNLG corpus",
  booktitle = 	"Proceedings of the 11th International Conference on Natural Language Generation",
  year = 	"2018",
  series = {INLG'18},
  publisher = 	"Association for Computational Linguistics",
  address = 	"Tilburg, The Netherlands",
}

@inproceedings{web_nlg,
  author    = {Claire Gardent and
               Anastasia Shimorina and
               Shashi Narayan and
               Laura Perez{-}Beltrachini},
  editor    = {Regina Barzilay and
               Min{-}Yen Kan},
  title     = {Creating Training Corpora for {NLG} Micro-Planners},
  booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume
               1: Long Papers},
  pages     = {179--188},
  publisher = {Association for Computational Linguistics},
  year      = {2017},
  url       = {https://doi.org/10.18653/v1/P17-1017},
  doi       = {10.18653/v1/P17-1017}
}

贡献

感谢 @TevenLeScao 添加此数据集。