数据集:

GEM/e2e_nlg

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original
英文

GEM/e2e_nlg 数据集卡片

主要数据卡片链接

你可以在此处找到主要数据卡片的链接 GEM Website

数据集摘要

E2E NLG 数据集是一个用于数据到文本模型的英文基准数据集,用于在餐馆领域中口头描述一组2-9个键值对属性。GEM 使用的版本是经过清理的 E2E NLG 数据集,过滤掉了具有产生幻觉和不完全覆盖所有输入属性的示例和输出。

你可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/e2e_nlg')

数据加载器可以在这里找到 here

网址 Website

论文 First data release , Detailed E2E Challenge writeup , Cleaned E2E version

作者 Jekaterina Novikova, Ondrej Dusek 和 Verena Rieser

数据集概述

如何获取数据及其文档

网页 Website

下载 Github

论文 First data release , Detailed E2E Challenge writeup , Cleaned E2E version

BibTex

@inproceedings{e2e_cleaned,
    address = {Tokyo, Japan},
    title = {Semantic {Noise} {Matters} for {Neural} {Natural} {Language} {Generation}},
    url = {https://www.aclweb.org/anthology/W19-8652/},
    booktitle = {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)},
    author = {Dušek, Ondřej and Howcroft, David M and Rieser, Verena},
    year = {2019},
    pages = {421--426},
}

联系人姓名 Ondrej Dusek

联系人邮箱 odusek@ufal.mff.cuni.cz

是否有排行榜? 无

语言和使用目的

是否支持多语言? 否

涵盖的方言 方言特定数据未被收集,语言为英国英语。

涵盖的语言 英语

语言属于谁?原始数据集是使用 CrowdFlower(现为 Appen)平台进行收集的,采用自报国籍的英语母语者。没有提供人口统计信息,但是收集范围仅限于英语国家。

许可证 cc-by-sa-4.0:知识共享署名-相同方式共享 4.0 国际许可协议

使用目的 数据集的收集目的是测试神经模型在非常明确的实现任务上的表现。

主要任务 数据到文本

交流目标 根据输入的所有属性生成用于通知/推荐餐馆的文本。

信用

策划组织类型 学术

策划组织 Heriot-Watt 大学

数据集创建者 Jekaterina Novikova, Ondrej Dusek 和 Verena Rieser

资助 这项研究得到了 EPSRC 项目 DILiGENt (EP/M005429/1) 和 MaDrIgAL (EP/N017536/1) 的资助。

谁将数据集添加到 GEM 中?Simon Mille 编写了最初的数据卡片,Yacine Jernite 编写了数据加载器。Sebastian Gehrmann 将数据卡片迁移到了 v2 格式并将数据加载器移动到了 hub。

数据集结构

数据以 CSV 格式存储,包含以下字段:

  • mr -- 意义表示 (MR,输入)
  • ref -- 参考,即相应的自然语言描述(输出)

还有其他字段(fixed, orig_mr),指示数据在清理过程中是否被修改以及在清理之前的原始 MR,但这些字段不用于自然语言生成。

MR 是扁平结构 -- 属性值对使用逗号分隔,值用括号括起来(见上面的示例)。共有8个属性:

  • name -- 餐馆名称
  • near -- 靠近餐馆的地标
  • area -- 位置(河畔、市中心)
  • food -- 食物类型/美食(例如日本料理、印度料理、英式料理等)
  • eatType -- 餐馆类型(餐厅、咖啡店、酒吧)
  • priceRange -- 价格范围(低、中、高、<£20、£20-30、>£30)
  • rating -- 客户评级(低、中、高、1/5、3/5、5/5)
  • familyFriendly -- 餐馆是否适合家庭(是/否)

相同的 MR 通常会使用不同的同义参考进行多次重复。

如何选择标签?

源 MR 是从有效属性值集合中随机自动生成的。标签由众包进行,并且是自然语言。

示例实例是

{
  "input":  "name[Alimentum], area[riverside], familyFriendly[yes], near[Burger King]",
  "target": "Alimentum is a kids friendly place in the riverside area near Burger King." 
}
,数据拼接是
MRs Distinct MRs References
Training 12,568 8,362 33,525
Development 1,484 1,132 4,299
Test 1,847 1,358 4,693
Total 15,899 10,852 42,517
,去重测试是“Distinct MRs”,具有去词义化占位符(属性 name, near)时,MR 仍然是独特的。

数据划分标准:将数据划分为不重叠的数据,这些数据位于不同的拆分中。

GEM 中的数据集

包含在 GEM 中的原因

为什么在 GEM 中有这个数据集?E2E 数据集是最大的有限领域 NLG 数据集之一,经常被用作数据到文本生成的基准。E2E 挑战包括了不同架构的 20 个系统,并提供可下载的系统输出。

类似的数据集:是

唯一的语言覆盖范围:否

与其他 GEM 数据集的区别:该数据集比可比较的数据集更干净,并且是一个相对容易的任务,使得评估变得简单直接。

数据集衡量的能力:表面实现。

GEM 的特定策划

为 GEM 进行了修改吗? 是

是否有其他拆分? 是

拆分信息:向 GEM 评估套件添加了 4 个 E2E 的特殊测试集。

  • 我们从训练集和开发集中每个随机选择了约 500 个输入创建了子集。
  • 我们对 500 个随机选择的测试实例的输入进行了分散,重新分配了输入属性的顺序。
  • 对于输入大小,我们基于输入中的餐馆属性数量创建了子群体。

拆分动机:泛化性和鲁棒性。

开始任务

先前的结果

先前的结果

测量的模型能力:表面实现。

指标:BLEU,METEOR,ROUGE。

提出的评估:官方评估脚本使用 MT-Eval 和 COCO 标题库及以下度量标准进行了组合。

  • BLEU
  • CIDEr
  • NIST
  • METEOR
  • ROUGE-L

是否有先前的结果:是

其他评估方法:大多数先前的结果,包括共享任务结果,都使用了数据集创建人提供的库。共享任务还使用以下两个标准进行了人工评估:

  • Quality: 在收集质量评分时,将系统输出与相应的意义表示一起呈现给众包工人,这意味着相对于 MR 的 NL 话语的正确性也应该影响到这种排名。众包工人被问到:“你如何评价话语的整体质量,包括语法正确性、流畅性、适应性和其他重要因素?”
  • Naturalness: 在收集自然度评分时,将系统输出单独呈现给众包工人,而没有提供相应的意义表示。众包工人被问到:“这个话语可能是由一个以英语为母语的人产生的吗?”

相关的先前结果:共享任务的评估结果详细展示了系统的评估。

数据集策划

原始策划

原始策划理由:该数据集的收集是为了展示/测试神经 NLG 模型。它比以前的封闭领域 NLG 数据集更大,并且包含更多的词汇丰富性和句法变化。

交流目标:根据输入的所有属性生成用于通知/推荐餐馆的文本。

是否从不同来源获取了数据:否

语言数据

语言数据是如何获取的:通过众包

它是在何处进行众包的:其他众包平台

语言生成者:通过众包收集了描述 MR 的人类参考,使用文本或图片 MR 作为基线。图片 MR 在 20% 的情况下使用 -- 这些数据具有更高的词汇变化,但引入了噪声。

涵盖的主题:该数据集侧重于餐厅的描述。

数据验证:通过策划人员验证

数据预处理:进行了基本检查(长度、有效字符、重复)。

数据是否经过筛选:经过算法筛选

筛选条件:在 GEM 中使用的经过清理的版本是经过算法筛选的。他们使用正则表达式匹配所有的人工生成引用与更准确的输入,当属性产生幻觉或被删除时。此外还删除了由转换引起的训练测试重叠。结果是,该数据比原始数据要干净得多,但并不完美(相比原始数据,大约有 20% 的实例可能存在不对齐的槽)。

结构化注释

是否有其他注释:无

注释服务:否

同意

有任何同意政策吗:是

同意政策详细信息:由于使用了众包平台,参与者放弃了他们对数据的权利,并且知道所产生的注释可以公开发布。

个人身份信息(PII)

是否包含 PII:不包含 PII

不包含 PII 的理由:该数据集是人工的,不包含任何关于人员的描述。

维护

是否有维护计划:无

更广泛的社会背景

关于数据集社会影响的先前工作

基于数据的模型的使用:否

对弱势社区的影响

满足了弱势社区的需求吗?否

关于偏见的讨论

是否有已记录的社会偏见:否

语言生成者是否代表了该语言:源数据是随机生成的,因此不应包含偏见。人类参考可能受到工作者人口统计信息的影响,但在数据收集时没有对此进行调查。

使用数据的注意事项

PII 风险和责任

许可证

数据集的版权限制:开放许可证-允许商业使用

语言数据的版权限制:开放许可证-允许商业使用

已知的技术限制

技术限制:经过清理的版本仍然有一些具有虚构或省略属性的数据点。

不适合的应用程序:数据仅与餐厅领域和包含的属性有关,不能指望模型处理其他领域或属性。