数据集:
enriched_web_nlg
任务:
子任务:
rdf-to-text计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
found源数据集:
extended|other-web-nlg许可:
WebNLG挑战涉及将数据映射到文本。训练数据由从DBpedia中提取的一组三元组和这些三元组的语言描述组成。例如,给出图(a)中显示的3个DBpedia三元组,目标是生成一个如图(b)所示的文本。它是自然语言生成(NLG)领域的宝贵资源和基准测试。然而,和其他NLG基准测试一样,它只包含一组平行的原始表示和对应的文本实现。本工作旨在为NLG流水线架构中常见任务的开发和评估提供数据的中间表示,例如语篇排序、词汇化、聚合和指代表达生成。
该数据集支持一个other-rdf-to-text任务,该任务要求模型接受一组来自DBpedia(一个数据库)的RDF(资源描述格式)三元组(主语、属性、对象的形式)作为输入,并输出表示三元组中包含的信息的自然语言句子。
数据集以英文(config en)和德文(config de)两个版本呈现。
一个典型的示例包含原始的RDF三元组集合,一份修改后提供给众包工作者的版本,以及这组三元组的可能的语言描述:
{ 'category': 'Politician',
'eid': 'Id10',
'lex': {'comment': ['good', 'good', 'good'],
'lid': ['Id1', 'Id2', 'Id3'],
'text': ['World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.',
'Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.',
'Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek.']},
'modified_triple_sets': {'mtriple_set': [['Abner_W._Sibal | battle | World_War_II',
'World_War_II | commander | Chiang_Kai-shek',
'Abner_W._Sibal | militaryBranch | United_States_Army']]},
'original_triple_sets': {'otriple_set': [['Abner_W._Sibal | battles | World_War_II', 'World_War_II | commander | Chiang_Kai-shek', 'Abner_W._Sibal | branch | United_States_Army'],
['Abner_W._Sibal | militaryBranch | United_States_Army',
'Abner_W._Sibal | battles | World_War_II',
'World_War_II | commander | Chiang_Kai-shek']]},
'shape': '(X (X) (X (X)))',
'shape_type': 'mixed',
'size': 3}
实例中可以找到以下字段:
英文版本包含train、test和dev拆分;德文版本只有train和dev。
自然语言生成(NLG)是将非语言数据自动转换为语言输出格式的过程(Reiter和Dale,2000;Gatt和Krahmer,2018)。最近,该领域的可用专注数据资源增加了,如E2E(Novikova等,2017)、ROTOWIRE(Wise-man等,2017)和WebNLG(Gardent等,2017a,b)语料库。尽管这些最近的发布对于整个NLG社区来说是非常有价值的资源,但它们都设计用于与端到端NLG模型一起使用。因此,它们只包含一组平行的原始表示和对应的文本实现。没有提供中间表示,因此研究人员无法直接使用它们开发或评估NLG流水线(Reiter和Dale,2000)中的常见任务,如语篇排序、词汇化、聚合、指代表达生成等。此外,这些新的语料库,像许多其他计算语言学资源一样,仅提供英文版本,限制了对其他语言的NLG应用开发。
[需要更多信息]
语言的来源是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集使用cc-by-nc-sa-4.0许可证。源DBpedia项目使用cc-by-sa-3.0和gfdl-1.1许可证。
@InProceedings{ferreiraetal2018,
author = "Castro Ferreira, Thiago
and Moussallem, Diego
and Wubben, Sander
and Krahmer, Emiel",
title = "Enriching the WebNLG corpus",
booktitle = "Proceedings of the 11th International Conference on Natural Language Generation",
year = "2018",
series = {INLG'18},
publisher = "Association for Computational Linguistics",
address = "Tilburg, The Netherlands",
}
@inproceedings{web_nlg,
author = {Claire Gardent and
Anastasia Shimorina and
Shashi Narayan and
Laura Perez{-}Beltrachini},
editor = {Regina Barzilay and
Min{-}Yen Kan},
title = {Creating Training Corpora for {NLG} Micro-Planners},
booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational
Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume
1: Long Papers},
pages = {179--188},
publisher = {Association for Computational Linguistics},
year = {2017},
url = {https://doi.org/10.18653/v1/P17-1017},
doi = {10.18653/v1/P17-1017}
}
感谢 @TevenLeScao 添加此数据集。