数据集:
web_nlg
WebNLG挑战的任务是将数据映射到文本。训练数据由从DBpedia中提取的三元组数据和这些三元组的文本表述组成。例如,给定图中所示的3个DBpedia三元组,目标是生成像(b)这样的文本。
a. (John_E_Blaha birthDate 1942_08_26) (John_E_Blaha birthPlace San_Antonio) (John_E_Blaha occupation Fighter_pilot) b. John E Blaha, born in San Antonio on 1942-08-26, worked as a fighter pilot
正如示例所示,该任务涉及特定的自然语言生成子任务,例如句子分割(如何将输入数据分割成句子)、词汇化(对DBpedia属性进行词汇化)、聚合(如何避免重复)和表面实现(如何构建一个句法正确和自然的文本)。
该数据集支持结构化到文本任务,要求模型接受来自数据库(DBpedia)的RDF(资源描述格式)三元组集合(主题、属性、对象)作为输入,并输出表示三元组中所包含信息的自然语言句子。该数据集支持了两个挑战: WebNLG2017 挑战和 WebNLG2020 挑战。结果按照其对参考结果的 METEOR 进行排序,但排行榜报告了一系列其他指标,包括 BLEU 、 BERTscore 和 BLEURT 。WebNLG2020挑战的v3版本发布( release_v3.0_en , release_v3.0_ru )还支持语义解析任务。
所有版本都包含英语( en )数据。v3版本( release_v3.0_ru )还包含俄语( ru )示例。
典型的示例包含原始RDF三元组集合,在众包工人中呈现的修改版本以及该三元组集合的可能词汇化集合:
{'2017_test_category': '', 'category': 'Politician', 'eid': 'Id10', 'lex': {'comment': ['good', 'good', 'good'], 'lid': ['Id1', 'Id2', 'Id3'], 'text': ['World War II had Chiang Kai-shek as a commander and United States Army soldier Abner W. Sibal.', 'Abner W. Sibal served in the United States Army during the Second World War and during that war Chiang Kai-shek was one of the commanders.', 'Abner W. Sibal, served in the United States Army and fought in World War II, one of the commanders of which, was Chiang Kai-shek.']}, 'modified_triple_sets': {'mtriple_set': [['Abner_W._Sibal | battle | World_War_II', 'World_War_II | commander | Chiang_Kai-shek', 'Abner_W._Sibal | militaryBranch | United_States_Army']]}, 'original_triple_sets': {'otriple_set': [['Abner_W._Sibal | battles | World_War_II', 'World_War_II | commander | Chiang_Kai-shek', 'Abner_W._Sibal | branch | United_States_Army'], ['Abner_W._Sibal | militaryBranch | United_States_Army', 'Abner_W._Sibal | battles | World_War_II', 'World_War_II | commander | Chiang_Kai-shek']]}, 'shape': '(X (X) (X (X)))', 'shape_type': 'mixed', 'size': 3}
实例中可以找到以下字段:
与英语相比,俄语数据具有额外的可选字段:
对于 v3.0 版本:
English (v3.0) | Train | Dev | Test (data-to-text) |
---|---|---|---|
triple sets | 13,211 | 1,667 | 1,779 |
texts | 35,426 | 4,464 | 5,150 |
properties | 372 | 290 | 220 |
Russian (v3.0) | Train | Dev | Test (data-to-text) |
---|---|---|---|
triple sets | 5,573 | 790 | 1,102 |
texts | 14,239 | 2,026 | 2,780 |
properties | 226 | 115 | 192 |
创建WebNLG数据集是为了推动(i)RDF文本化器和(ii)能够处理各种语言结构的微规划器的发展。该数据集旨在涵盖不同领域(“类别”)中的知识。同一属性和实体可以出现在多个类别中。
数据来自原始的DBpedia三元组。 This paper 解释了如何选择三元组。
Initial Data Collection and Normalization从DBpedia中提取的初始三元组在多个方面进行了修改。有关最常见的更改,请参阅 official documentation 。原始三元组集和修改后的三元组集通常表示一对一的映射关系。然而,有些情况下存在多对一的映射关系,多个原始三元组集被映射到一个修改后的三元组集中。
作为RDF树的根的实体列在 this file 中。
用于训练的英文WebNLG 2020数据集(v3.0)包括了16个不同的DBpedia类别的数据-文本对:
俄语数据集(v3.0)包括9个不同类别的数据-文本对:Airport、Astronaut、Building、CelestialBody、ComicsCharacter、Food、Monument、SportsTeam和University。
Who are the source language producers?没有源文本,所有文本材料是在注释过程中编制的。
注释者首先被要求创建将单个三元组转化为句子的句子。在第二轮中,注释者被要求将单个三元组句子组合成涵盖2个三元组的句子。依此类推,直到7个三元组。进行质量检查以确保注释的质量。请参阅 the dataset paper 的第3.3节。
俄语数据是使用机器翻译系统从英文翻译而来,然后由众包工人进行后编辑。请参阅 this paper 的第2.2节。
Who are the annotators?所有参考文献都是通过众包平台(CrowdFlower/Figure 8和亚马逊Mechanical Turk)收集的。对于俄语,使用Yandex.Toloka众包平台进行后编辑。
数据集的发布版本和注释过程都不涉及任何个人/人口统计信息的收集或分享。
我们不预见该数据集或任务会产生任何负面社会影响。
积极展望:能够从RDF数据生成高质量的文本将允许使这些数据更易于泛用用户访问,丰富现有文本以从诸如DBpedia等知识库中提取的信息,或者描述、比较和关联这些知识库中的实体。
该数据集是使用DBpedia RDF三元组创建的,自然会展示出在维基百科中已知的某些偏见,如某些形式的性别偏见等。
没有对 entities 的选择进行控制,其中描述了RDF树。因此,它们可能包含性别偏见;例如,所有由RDF三元组描述的宇航员都是男性。因此,在文本中,代词he/him/his出现得更频繁。同样,实体可能与西方文化的关联更频繁,而不是其他文化。
众包参考的质量有限,特别是在所收集文本的流畅性/自然性方面。
俄语数据是通过机器翻译,然后由众包工人进行后编辑的,因此一些示例可能仍存在与糟糕翻译相关的问题。
该数据集的主要策划者是Anastasia Shimorina(洛林大学/洛林计算机科学与自动化研究所,法国)。在WebNLG的发布过程中,有几位人员参与了构建:Claire Gardent(法国国家科研中心/洛林计算机科学与自动化研究所,法国),Shashi Narayan(Google,英国),Laura Perez-Beltrachini(爱丁堡大学,英国),Elena Khasanova和Thiago Castro Ferreira(巴西米纳斯吉拉斯联邦大学)。该数据集的构建由法国国家研究院(ANR)资助。
该数据集使用了 cc-by-nc-sa-4.0 许可证。源DBpedia项目使用了 cc-by-sa-3.0 和 gfdl-1.1 许可证。
@inproceedings{web_nlg, author = {Claire Gardent and Anastasia Shimorina and Shashi Narayan and Laura Perez{-}Beltrachini}, editor = {Regina Barzilay and Min{-}Yen Kan}, title = {Creating Training Corpora for {NLG} Micro-Planners}, booktitle = {Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, {ACL} 2017, Vancouver, Canada, July 30 - August 4, Volume 1: Long Papers}, pages = {179--188}, publisher = {Association for Computational Linguistics}, year = {2017}, url = {https://doi.org/10.18653/v1/P17-1017}, doi = {10.18653/v1/P17-1017} }
@InProceedings{shimorina2018handling, author = "Shimorina, Anastasia and Gardent, Claire", title = "Handling Rare Items in Data-to-Text Generation", booktitle = "Proceedings of the 11th International Conference on Natural Language Generation", year = "2018", publisher = "Association for Computational Linguistics", pages = "360--370", location = "Tilburg University, The Netherlands", url = "http://aclweb.org/anthology/W18-6543" }
感谢 @Shimorina 和 @yjernite 添加该数据集。