数据集:

enriched_web_nlg

任务:

表格到文本

子任务:

rdf-to-text

语言:

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

批注创建人:

found

源数据集:

extended|other-web-nlg

许可:

cc-by-sa-4.0

数据集介绍文件清单

英文

WebNLG数据集数据卡

数据集摘要

WebNLG挑战涉及将数据映射到文本。训练数据由从DBpedia中提取的一组三元组和这些三元组的语言描述组成。例如，给出图(a)中显示的3个DBpedia三元组，目标是生成一个如图(b)所示的文本。它是自然语言生成（NLG）领域的宝贵资源和基准测试。然而，和其他NLG基准测试一样，它只包含一组平行的原始表示和对应的文本实现。本工作旨在为NLG流水线架构中常见任务的开发和评估提供数据的中间表示，例如语篇排序、词汇化、聚合和指代表达生成。

支持的任务和排行榜

该数据集支持一个other-rdf-to-text任务，该任务要求模型接受一组来自DBpedia（一个数据库）的RDF（资源描述格式）三元组（主语、属性、对象的形式）作为输入，并输出表示三元组中包含的信息的自然语言句子。

语言

数据集以英文（config en）和德文（config de）两个版本呈现。

数据集结构

数据实例

一个典型的示例包含原始的RDF三元组集合，一份修改后提供给众包工作者的版本，以及这组三元组的可能的语言描述：

{ 'category': 'Politician',
 'eid': 'Id10',
 'lex': {'comment': ['good', 'good', 'good'],
         'lid': ['Id1', 'Id2', 'Id3'],
         'text': ['World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.',
                  'Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.',
                  'Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek.']},
 'modified_triple_sets': {'mtriple_set': [['Abner_W._Sibal | battle | World_War_II',
                                           'World_War_II | commander | Chiang_Kai-shek',
                                           'Abner_W._Sibal | militaryBranch | United_States_Army']]},
 'original_triple_sets': {'otriple_set': [['Abner_W._Sibal | battles | World_War_II', 'World_War_II | commander | Chiang_Kai-shek', 'Abner_W._Sibal | branch | United_States_Army'],
                                          ['Abner_W._Sibal | militaryBranch | United_States_Army',
                                           'Abner_W._Sibal | battles | World_War_II',
                                           'World_War_II | commander | Chiang_Kai-shek']]},
 'shape': '(X (X) (X (X)))',
 'shape_type': 'mixed',
 'size': 3}

数据字段

实例中可以找到以下字段：

category：RDF三元组中出现的DBpedia实体的类别。
eid：示例ID，每个类别上的每个拆分独一无二。
size：集合中的RDF三元组数量。
shape：（仅适用于v3）每组RDF三元组都是一个树，其特征是其形状和形状类型。shape是表示树的带有嵌套括号的字符串，其中X是一个节点（请参见 Newick tree format ）。
shape_type：（仅适用于v3）是树形状的类型，可以是chain（一个三元组的对象是另一个三元组的主语）、sibling（具有共享主语的三元组）或mixed（同时存在chain和sibling类型）。
2017_test_category：（对于webnlg_challenge_2017）告知RDF三元组集合是否出现在训练集中。
lex：词汇化，包括：
- text：待预测的文本。
- lid：词汇化ID，每个示例唯一。
- comment：词汇化由众包工作者评级，可以是good（好）或bad（差）。

数据拆分

英文版本包含train、test和dev拆分；德文版本只有train和dev。

数据集创建

策划理由

自然语言生成（NLG）是将非语言数据自动转换为语言输出格式的过程（Reiter和Dale，2000；Gatt和Krahmer，2018）。最近，该领域的可用专注数据资源增加了，如E2E（Novikova等，2017）、ROTOWIRE（Wise-man等，2017）和WebNLG（Gardent等，2017a,b）语料库。尽管这些最近的发布对于整个NLG社区来说是非常有价值的资源，但它们都设计用于与端到端NLG模型一起使用。因此，它们只包含一组平行的原始表示和对应的文本实现。没有提供中间表示，因此研究人员无法直接使用它们开发或评估NLG流水线（Reiter和Dale，2000）中的常见任务，如语篇排序、词汇化、聚合、指代表达生成等。此外，这些新的语料库，像许多其他计算语言学资源一样，仅提供英文版本，限制了对其他语言的NLG应用开发。

源数据

初始数据收集和归一化

[需要更多信息]

语言的来源是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

该数据集使用cc-by-nc-sa-4.0许可证。源DBpedia项目使用cc-by-sa-3.0和gfdl-1.1许可证。

引用信息

如果使用了Enriched WebNLG语料库，请引用：

@InProceedings{ferreiraetal2018,
  author = 	"Castro Ferreira, Thiago
        and Moussallem, Diego
        and Wubben, Sander
        and Krahmer, Emiel",
  title = 	"Enriching the WebNLG corpus",
  booktitle = 	"Proceedings of the 11th International Conference on Natural Language Generation",
  year = 	"2018",
  series = {INLG'18},
  publisher = 	"Association for Computational Linguistics",
  address = 	"Tilburg, The Netherlands",
}

@inproceedings{web_nlg,
  author    = {Claire Gardent and
               Anastasia Shimorina and
               Shashi Narayan and
               Laura Perez{-}Beltrachini},
  editor    = {Regina Barzilay and
               Min{-}Yen Kan},
  title     = {Creating Training Corpora for {NLG} Micro-Planners},
  booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational
               Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume
               1: Long Papers},
  pages     = {179--188},
  publisher = {Association for Computational Linguistics},
  year      = {2017},
  url       = {https://doi.org/10.18653/v1/P17-1017},
  doi       = {10.18653/v1/P17-1017}
}

贡献

感谢 @TevenLeScao 添加此数据集。

作者:

佚名

数据集大小:

27.71 KB