数据集:
enriched_web_nlg
任务:
表格到文本子任务:
rdf-to-text计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced批注创建人:
found源数据集:
extended|other-web-nlg许可:
cc-by-sa-4.0WebNLG挑战涉及将数据映射到文本。训练数据由从DBpedia中提取的一组三元组和这些三元组的语言描述组成。例如,给出图(a)中显示的3个DBpedia三元组,目标是生成一个如图(b)所示的文本。它是自然语言生成(NLG)领域的宝贵资源和基准测试。然而,和其他NLG基准测试一样,它只包含一组平行的原始表示和对应的文本实现。本工作旨在为NLG流水线架构中常见任务的开发和评估提供数据的中间表示,例如语篇排序、词汇化、聚合和指代表达生成。
该数据集支持一个other-rdf-to-text任务,该任务要求模型接受一组来自DBpedia(一个数据库)的RDF(资源描述格式)三元组(主语、属性、对象的形式)作为输入,并输出表示三元组中包含的信息的自然语言句子。
数据集以英文(config en)和德文(config de)两个版本呈现。
一个典型的示例包含原始的RDF三元组集合,一份修改后提供给众包工作者的版本,以及这组三元组的可能的语言描述:
{ 'category': 'Politician', 'eid': 'Id10', 'lex': {'comment': ['good', 'good', 'good'], 'lid': ['Id1', 'Id2', 'Id3'], 'text': ['World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.', 'Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.', 'Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek.']}, 'modified_triple_sets': {'mtriple_set': [['Abner_W._Sibal | battle | World_War_II', 'World_War_II | commander | Chiang_Kai-shek', 'Abner_W._Sibal | militaryBranch | United_States_Army']]}, 'original_triple_sets': {'otriple_set': [['Abner_W._Sibal | battles | World_War_II', 'World_War_II | commander | Chiang_Kai-shek', 'Abner_W._Sibal | branch | United_States_Army'], ['Abner_W._Sibal | militaryBranch | United_States_Army', 'Abner_W._Sibal | battles | World_War_II', 'World_War_II | commander | Chiang_Kai-shek']]}, 'shape': '(X (X) (X (X)))', 'shape_type': 'mixed', 'size': 3}
实例中可以找到以下字段:
英文版本包含train、test和dev拆分;德文版本只有train和dev。
自然语言生成(NLG)是将非语言数据自动转换为语言输出格式的过程(Reiter和Dale,2000;Gatt和Krahmer,2018)。最近,该领域的可用专注数据资源增加了,如E2E(Novikova等,2017)、ROTOWIRE(Wise-man等,2017)和WebNLG(Gardent等,2017a,b)语料库。尽管这些最近的发布对于整个NLG社区来说是非常有价值的资源,但它们都设计用于与端到端NLG模型一起使用。因此,它们只包含一组平行的原始表示和对应的文本实现。没有提供中间表示,因此研究人员无法直接使用它们开发或评估NLG流水线(Reiter和Dale,2000)中的常见任务,如语篇排序、词汇化、聚合、指代表达生成等。此外,这些新的语料库,像许多其他计算语言学资源一样,仅提供英文版本,限制了对其他语言的NLG应用开发。
[需要更多信息]
语言的来源是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集使用cc-by-nc-sa-4.0许可证。源DBpedia项目使用cc-by-sa-3.0和gfdl-1.1许可证。
@InProceedings{ferreiraetal2018, author = "Castro Ferreira, Thiago and Moussallem, Diego and Wubben, Sander and Krahmer, Emiel", title = "Enriching the WebNLG corpus", booktitle = "Proceedings of the 11th International Conference on Natural Language Generation", year = "2018", series = {INLG'18}, publisher = "Association for Computational Linguistics", address = "Tilburg, The Netherlands", } @inproceedings{web_nlg, author = {Claire Gardent and Anastasia Shimorina and Shashi Narayan and Laura Perez{-}Beltrachini}, editor = {Regina Barzilay and Min{-}Yen Kan}, title = {Creating Training Corpora for {NLG} Micro-Planners}, booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers}, pages = {179--188}, publisher = {Association for Computational Linguistics}, year = {2017}, url = {https://doi.org/10.18653/v1/P17-1017}, doi = {10.18653/v1/P17-1017} }
感谢 @TevenLeScao 添加此数据集。