数据集:
GEM/web_nlg
任务:
表格到文本语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
unknown源数据集:
original其他:
data-to-text许可:
cc-by-nc-4.0你可以在 GEM Website 找到主要的数据卡片。
WebNLG 是一个双语数据集(英语,俄语),包含了大约 450 个不同的 DBpedia 三元组集和短文本。WebNLG 数据最初是为了促进能够生成短文本并处理微观规划(即句子分割和排序,引用表达生成,聚合)的 RDF 语言生成系统的开发而创建的;任务的目标是根据共享实体的 1 至 7 个输入三元组生成文本(因此输入实际上是一个连接的知识图)。该数据集包含大约 17,000 个三元组集和 45,000 个众包文本(英语版),以及 7,000 个三元组集和 19,000 个众包文本(俄语版)。还提供了一个具有在训练过程中未见到的实体和/或属性的具有挑战性的测试集部分。
你可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/web_nlg')
数据加载器可以在 here 找到。
网页 论文First Dataset Release , WebNLG Challenge 2017 Report , WebNLG Challenge 2020 Report
作者数据集的主要策展人是 Anastasia Shimorina(法国洛林大学 / LORIA)。在 WebNLG 的发布过程中,还有一些人对其进行了贡献,包括 Claire Gardent(法国国家科学研究中心 / LORIA)、Shashi Narayan(谷歌,英国)、Laura Perez-Beltrachini(爱丁堡大学,英国)、Elena Khasanova 和 Thiago Castro Ferreira(巴西米纳斯吉拉斯联邦大学)。
First Dataset Release , WebNLG Challenge 2017 Report , WebNLG Challenge 2020 Report
BibTex数据集的初始版本:
@inproceedings{gardent2017creating, author = "Gardent, Claire and Shimorina, Anastasia and Narayan, Shashi and Perez-Beltrachini, Laura", title = "Creating Training Corpora for NLG Micro-Planners", booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", year = "2017", publisher = "Association for Computational Linguistics", pages = "179--188", location = "Vancouver, Canada", doi = "10.18653/v1/P17-1017", url = "http://www.aclweb.org/anthology/P17-1017" }
最新的版本 3.0:
@inproceedings{castro-ferreira20:bilin-bi-direc-webnl-shared, title={The 2020 Bilingual, Bi-Directional WebNLG+ Shared Task Overview and Evaluation Results (WebNLG+ 2020)}, author={Castro Ferreira, Thiago and Gardent, Claire and Ilinykh, Nikolai and van der Lee, Chris and Mille, Simon and Moussallem, Diego and Shimorina, Anastasia}, booktitle = {Proceedings of the 3rd WebNLG Workshop on Natural Language Generation from the Semantic Web (WebNLG+ 2020)}, pages = "55--76", year = 2020, address = {Dublin, Ireland (Virtual)}, publisher = {Association for Computational Linguistics}}联系邮箱
webnlg-challenge@inria.fr
有排行榜吗?是
排行榜链接 排行榜详情利用众包参考文本评估模型的输出;排行榜报告 BLEU-4、METEOR、chrF++、TER、BERTScore 和 BLEURT 分数。
是
涉及的语言俄语,英语
许可证cc-by-nc-4.0:知识共享署名-非商业性使用国际许可证
预期用途WebNLG 数据集的创建旨在推广(i)能够处理各种语言结构的 RDF 生成系统和(ii)微观规划。该数据集旨在涵盖不同领域(“类别”)的知识。同样的属性和实体可以出现在多个类别中。
主要任务数据到文本
交流目标模型应该用自然语言表述所有提供的输入三元组,并且只有这些三元组。
学术
策展组织法国洛林大学 / LORIA、法国国家科学研究中心 / LORIA、英国爱丁堡大学、巴西米纳斯吉拉斯联邦大学
数据集创建者该数据集的主要策展人是 Anastasia Shimorina(法国洛林大学 / LORIA)。在 WebNLG 的发布过程中,还有一些人对其进行了贡献,包括 Claire Gardent(法国国家科学研究中心 / LORIA)、Shashi Narayan(谷歌,英国)、Laura Perez-Beltrachini(爱丁堡大学,英国)、Elena Khasanova 和 Thiago Castro Ferreira(巴西米纳斯吉拉斯联邦大学)。
资金支持该数据集的构建得到了法国国家研究机构(ANR)的资助。
谁将数据集添加到了 GEM?Simon Mille 和 Sebastian Gehrmann 将数据集添加到了 GEM,并撰写了数据卡片。
请参阅 official documentation 。
entry:基准的数据实例。每个 entry 都有五个属性:一个 DBpedia 类别(category)、一个 entry ID(eid)、形状(shape)、形状类型(shape type)和三元组集大小(size)。
shape :RDF 树的字符串表示形式,带有嵌套的括号,其中 X 是一个节点(参见 Newick tree format )。
shape_type :树形状的类型。我们定义了 identify 三种树形状的类型:
eid :一个 entry ID。它只在一个类别和一个 size 内唯一。
category :一个 DBpedia 类别(如 Astronaut、City、MusicalWork、Politician 等)。
size :三元组集中的 RDF 三元组数量。取值范围为 1 到 7。
每个 entry 都有三个字段:originaltripleset、modifiedtripleset 和 lexs。
originaltripleset:从 DBpedia 提取的一组 RDF 三元组。每组 RDF 三元组是一棵树。三元组具有主语-谓词-宾语结构。
modifiedtripleset:呈现给众包工作者的一组 RDF 三元组(有关修改的详细信息,请参见下文)。
原始和修改后的三元组具有不同的目的:原始三元组用于将数据链接到知识库(DBpedia),而修改后的三元组用于确保数据的一致性和同质性。训练模型时,应使用修改后的三元组。
lexs(缩写为 lexicalisations):将三元组用自然语言表示的文本。每个词汇化项都有两个属性:一个注释(comment)和一个词汇化 ID(lid)。默认情况下,注释的值为 good,只有在少数情况下,如果发现一个词汇化不完全匹配三元组集,就会手动将其标记为 toFix。
俄语数据与英语相比,增加了一些可选字段:
<dbpedialinks>:通过 sameAs 属性从 DBpedia 中提取的连接英语和俄语实体的 RDF 三元组。
<links>:为一些实体手动创建的 RDF 三元组,以用作翻译指示器。这里有两种类型:
带有 sameAs 的(Spaniards | sameAs | испанцы)
带有 includes 的(Tomatoes, guanciale, cheese, olive oil | includes | гуанчиале)。大多数是为字符串字面量创建的,以翻译其中的某些部分。
俄语 WebNLG 中的词汇化有一个新参数 lang(值为 en 或 ru),因为原始英文文本保留在俄语版本中(如上例所示)。
示例实例{ "entry": { "category": "Company", "size": "4", "shape": "(X (X) (X) (X) (X))", "shape_type": "sibling", "eid": "Id21", "lexs": [ { "comment": "good", "lex": "Trane, which was founded on January 1st 1913 in La Crosse, Wisconsin, is based in Ireland. It has 29,000 employees.", "lid": "Id1" } ], "modifiedtripleset": [ { "subject": "Trane", "property": "foundingDate", "object": "1913-01-01" }, { "subject": "Trane", "property": "location", "object": "Ireland" }, { "subject": "Trane", "property": "foundationPlace", "object": "La_Crosse,_Wisconsin" }, { "subject": "Trane", "property": "numberOfEmployees", "object": "29000" } ], "originaltriplesets": { "originaltripleset": [ { "subject": "Trane", "property": "foundingDate", "object": "1913-01-01" }, { "subject": "Trane", "property": "location", "object": "Ireland" }, { "subject": "Trane", "property": "foundationPlace", "object": "La_Crosse,_Wisconsin" }, { "subject": "Trane", "property": "numberOfEmployees", "object": "29000" } ] } } }
XML 格式的示例参见 here 。
数据拆分English (v3.0) | Train | Dev | Test |
---|---|---|---|
triple sets | 13,211 | 1,667 | 1,779 |
texts | 35,426 | 4,464 | 5,150 |
properties | 372 | 290 | 220 |
Russian (v3.0) | Train | Dev | Test |
---|---|---|---|
triple sets | 5,573 | 790 | 1,102 |
texts | 14,239 | 2,026 | 2,780 |
properties | 226 | 115 | 192 |
由于受限的生成任务,该数据集可用于评估非常特定和狭窄的生成能力。
类似的数据集是
独特的语言覆盖范围是
与其他 GEM 数据集的区别RDF-三元组格式是 WebNLG 独有的。
数据集衡量的能力表面表达
是
GEM 的修改其他
修改的详细信息对数据集的主要内容没有进行任何更改。使用了数据集的 version 3.0 。
是否有其他拆分?是
拆分信息为 WebNLG 添加了 23 个特殊的测试集,12 个用于英语和 11 个用于俄语。对于两种语言,我们从每个类别中比例抽取了约 500 个随机选择的输入来创建训练集和开发集的子集。
对 WebNLG 进行了两种类型的转换:(i)输入数据混乱(英语和俄语)和(ii)数值替换(英语);对于这两种情况,我们随机选择了约 500 个输入的子集。对于(i),将随机重新分配三元组的顺序(每个三元组保持相同的主语-谓词-宾语内部顺序)。对于(ii),更改是根据当前基数值的格式进行的(例如,字母、整数或浮点数)并将其替换为新的随机值。新数字下限为零,上限为给定值的最高 10 的幂(例如,替换 54 会得到介于 0-100 之间的随机值)。浮点值保持精度。
对于两种语言,我们确定了测试集的不同子集,以便我们可以将它们相互进行比较,从而更好地了解结果。目前有 8 种我们做出的选择:
选择 1(size):输入长度。此选择对应于输入中的谓词数量。通过比较不同长度的输入,我们可以了解 NLG 系统处理不同输入大小的能力的程度。下表提供了相关的频率。请注意,比较少于 100 个项的选择可能导致不可靠的比较。
Input length | Frequency English | Frequency Russian |
---|---|---|
1 | 369 | 254 |
2 | 349 | 200 |
3 | 350 | 214 |
4 | 305 | 214 |
5 | 213 | 159 |
6 | 114 | 32 |
7 | 79 | 29 |
选择 2(frequency):已见/未见的单个谓词。此选择对应于仅有一个谓词的输入。我们比较了在训练数据中是否已经见到了哪些谓词。下表提供了相关的频率。请注意,此比较仅适用于英语,而不适用于俄语,因为只有一个未见的单谓词的示例。
_ in training | Frequency English | Frequency Russian |
---|---|---|
Seen | 297 | 253 |
Unseen | 72 | 1 |
选择 3(frequency):已见/未见的谓词组合。此选择检查了所有谓词组合是否已经在训练数据中见过。例如:如果谓词 A 和 B 的组合已见,那意味着在训练数据中有一个由两个三元组组成的输入,其中一个三元组使用谓词 A,另一个使用谓词 B。如果该组合未见,则反之亦然。下表提供了相关的频率。
_ in training | Frequency English | Frequency Russian |
---|---|---|
unseen | 1295 | 354 |
seen | 115 | 494 |
选择 4(frequency):已见/未见的参数。对于所有输入,检查了所有 arg1 和 arg2 是否在训练阶段中已经见过。对于此选择,“已见”是默认值。只有当某个输入的所有 arg1 实例都未见时,我们才将该输入的 arg1 视为未见。arg2 也是同理。因此,“已见”在这里实际上意味着 arg1 或 arg2 中至少有一部分在输入中已经见过。下表提供了相关的频率。请注意,此比较仅适用于英语,而不适用于俄语,因为几乎没有未见的谓词组合的示例。
Arguments seen in training? | Frequency English | Frequency Russian |
---|---|---|
both_seen | 518 | 1075 |
both_unseen | 1177 | 4 |
arg1_unseen | 56 | 19 |
arg2_unseen | 28 | 4 |
选择 5(shape):重复的主语。对于此选择,子集是基于主语在输入中重复的次数;它仅考虑主语最多重复的次数,也就是说,如果一个主语在一个输入中出现了 3 次,另一个主语出现了 2 次,这个输入将在“3_subjects_same”拆分中。Unique_subjects 意味着所有主语都不同。
Max num. of repeated subjects | Frequency English | Frequency Russian |
---|---|---|
unique_subjects | 453 | 339 |
2_subjects_same | 414 | 316 |
3_subjects_same | 382 | 217 |
4_subjects_same | 251 | 143 |
5_subjects_same | 158 | 56 |
6_subjects_same | 80 | 19 |
7_subjects_same | 41 | 12 |
选择 6(shape):重复的宾语。与上面的主语相同,但针对宾语。重复的宾语情况要少得多,因此这里只有两个类别,unique_objects 和 some_objects_repeated;对于后者,在英语中,我们有多达 3 个共指宾语,在俄语中有 XXX。
Max num. of repeated objects | Frequency English | Frequency Russian |
---|---|---|
unique_objects | 1654 | 1099 |
some_objects_same | 125 | 3 |
选择 7(shape):重复的谓词。与上面的宾语相同,但针对谓词;英语中可以有最多两个相同的属性,俄语中可以多达 XXX。
Max num. of repeated properties | Frequency English | Frequency Russian |
---|---|---|
unique_properties | 1510 | 986 |
some_properties_same | 269 | 116 |
选择 8(shape):既作为主语又作为宾语出现的实体。对于此选择,我们将没有任何实体作为主语和宾语的输入分为一组,将一个或多个实体作为主语和宾语都出现在输入中的输入分为另一组。我们在英语中找到两个这样的实体,以及在俄语中多达 XXX 个这样的实体。
Max num. of objects and subjects in common | Frequency English | Frequency Russian |
---|---|---|
unique_properties | 1322 | 642 |
some_properties_same | 457 | 460 |
鲁棒性
数据集构建: main dataset paper , RDF triple extraction , Russian translation
WebNLG Challenge 2017: webpage , paper
WebNLG Challenge 2020: webpage , paper
WebNLG 的扩展版本: repository , paper
相关研究论文: webpage
对于两种语言,参与的系统在多参考情况下进行自动评估。每个英语假设与最多 5 个参考文本进行比较,每个俄语假设与最多 7 个参考文本进行比较。平均而言,英语数据每个测试实例具有 2.89 个参考文本,俄语数据每个实例具有 2.52 个参考文本。
在人工评估中,示例在三元组集大小上均匀抽样,并评估以下维度(在 MTurk 和 Yandex.Toloka 上):
对于有关指令等的其他信息,请参考原始论文。
是否有先前的结果?是
其他评估方法我们作为 GEM 基准的一部分评估了各种模型。
相关的先前结果结果可以在 GEM website 找到。
是 - 相关任务
社会影响观察我们预计此数据集或任务不会有任何负面的社会影响。
积极的展望:能够从 RDF 数据生成高质量的文本将使得此数据对普通用户更易访问,用知识库(如 DBpedia)丰富现有文本,描述、比较和联系这些知识库中存在的实体。
否
是
分析工作的链接和摘要此数据集是使用 DBpedia RDF 三元组创建的,这些三元组自然地展示了在 Wikipedia 中发现的某些偏见,例如某些形式的性别偏见。
选择使用 entities 描述的 RDF 树形状时没有进行控制。因此,它们可能包含性别偏见;例如,所有通过 RDF 三元组描述的航天员都是男性。因此,在文本中更频繁地出现了代词 he/him/his。类似地,实体可能更多地与西方文化相关,而不是其他文化。
语言制造者是否代表了该语言?在英语中,数据集仅限于众包评级者所讲的语言。在俄语中,语言受到机器翻译系统的影响,该系统在后期由众包工作者进行了编辑。
此数据集中没有 PII 信息。
仅限非商业使用
语言数据的版权限制公共领域
众包参考文本的质量有限,特别是在文本的流畅性/自然性方面。
俄语数据使用机器翻译,然后由众包工作者进行了后期编辑,因此某些示例可能仍显示出与坏的翻译有关的问题。
不适用的应用程序此数据集仅涵盖了有限的领域。因此,它不能用作通用的语言生成系统。