数据集:
GEM/e2e_nlg
语言:
en计算机处理:
unknown语言创建人:
unknown批注创建人:
none源数据集:
original其他:
data-to-text许可:
cc-by-sa-4.0任务:
表格到文本你可以在此处找到主要数据卡片的链接 GEM Website 。
E2E NLG 数据集是一个用于数据到文本模型的英文基准数据集,用于在餐馆领域中口头描述一组2-9个键值对属性。GEM 使用的版本是经过清理的 E2E NLG 数据集,过滤掉了具有产生幻觉和不完全覆盖所有输入属性的示例和输出。
你可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/e2e_nlg')
数据加载器可以在这里找到 here 。
网址 Website
论文 First data release , Detailed E2E Challenge writeup , Cleaned E2E version
作者 Jekaterina Novikova, Ondrej Dusek 和 Verena Rieser
网页 Website
下载 Github
论文 First data release , Detailed E2E Challenge writeup , Cleaned E2E version
BibTex
@inproceedings{e2e_cleaned, address = {Tokyo, Japan}, title = {Semantic {Noise} {Matters} for {Neural} {Natural} {Language} {Generation}}, url = {https://www.aclweb.org/anthology/W19-8652/}, booktitle = {Proceedings of the 12th {International} {Conference} on {Natural} {Language} {Generation} ({INLG} 2019)}, author = {Dušek, Ondřej and Howcroft, David M and Rieser, Verena}, year = {2019}, pages = {421--426}, }
联系人姓名 Ondrej Dusek
联系人邮箱 odusek@ufal.mff.cuni.cz
是否有排行榜? 无
是否支持多语言? 否
涵盖的方言 方言特定数据未被收集,语言为英国英语。
涵盖的语言 英语
语言属于谁?原始数据集是使用 CrowdFlower(现为 Appen)平台进行收集的,采用自报国籍的英语母语者。没有提供人口统计信息,但是收集范围仅限于英语国家。
许可证 cc-by-sa-4.0:知识共享署名-相同方式共享 4.0 国际许可协议
使用目的 数据集的收集目的是测试神经模型在非常明确的实现任务上的表现。
主要任务 数据到文本
交流目标 根据输入的所有属性生成用于通知/推荐餐馆的文本。
策划组织类型 学术
策划组织 Heriot-Watt 大学
数据集创建者 Jekaterina Novikova, Ondrej Dusek 和 Verena Rieser
资助 这项研究得到了 EPSRC 项目 DILiGENt (EP/M005429/1) 和 MaDrIgAL (EP/N017536/1) 的资助。
谁将数据集添加到 GEM 中?Simon Mille 编写了最初的数据卡片,Yacine Jernite 编写了数据加载器。Sebastian Gehrmann 将数据卡片迁移到了 v2 格式并将数据加载器移动到了 hub。
数据以 CSV 格式存储,包含以下字段:
还有其他字段(fixed, orig_mr),指示数据在清理过程中是否被修改以及在清理之前的原始 MR,但这些字段不用于自然语言生成。
MR 是扁平结构 -- 属性值对使用逗号分隔,值用括号括起来(见上面的示例)。共有8个属性:
相同的 MR 通常会使用不同的同义参考进行多次重复。
源 MR 是从有效属性值集合中随机自动生成的。标签由众包进行,并且是自然语言。
示例实例是
{ "input": "name[Alimentum], area[riverside], familyFriendly[yes], near[Burger King]", "target": "Alimentum is a kids friendly place in the riverside area near Burger King." },数据拼接是
MRs | Distinct MRs | References | |
---|---|---|---|
Training | 12,568 | 8,362 | 33,525 |
Development | 1,484 | 1,132 | 4,299 |
Test | 1,847 | 1,358 | 4,693 |
Total | 15,899 | 10,852 | 42,517 |
数据划分标准:将数据划分为不重叠的数据,这些数据位于不同的拆分中。
为什么在 GEM 中有这个数据集?E2E 数据集是最大的有限领域 NLG 数据集之一,经常被用作数据到文本生成的基准。E2E 挑战包括了不同架构的 20 个系统,并提供可下载的系统输出。
类似的数据集:是
唯一的语言覆盖范围:否
与其他 GEM 数据集的区别:该数据集比可比较的数据集更干净,并且是一个相对容易的任务,使得评估变得简单直接。
数据集衡量的能力:表面实现。
为 GEM 进行了修改吗? 是
是否有其他拆分? 是
拆分信息:向 GEM 评估套件添加了 4 个 E2E 的特殊测试集。
拆分动机:泛化性和鲁棒性。
测量的模型能力:表面实现。
指标:BLEU,METEOR,ROUGE。
提出的评估:官方评估脚本使用 MT-Eval 和 COCO 标题库及以下度量标准进行了组合。
是否有先前的结果:是
其他评估方法:大多数先前的结果,包括共享任务结果,都使用了数据集创建人提供的库。共享任务还使用以下两个标准进行了人工评估:
相关的先前结果:共享任务的评估结果详细展示了系统的评估。
原始策划理由:该数据集的收集是为了展示/测试神经 NLG 模型。它比以前的封闭领域 NLG 数据集更大,并且包含更多的词汇丰富性和句法变化。
交流目标:根据输入的所有属性生成用于通知/推荐餐馆的文本。
是否从不同来源获取了数据:否
语言数据是如何获取的:通过众包
它是在何处进行众包的:其他众包平台
语言生成者:通过众包收集了描述 MR 的人类参考,使用文本或图片 MR 作为基线。图片 MR 在 20% 的情况下使用 -- 这些数据具有更高的词汇变化,但引入了噪声。
涵盖的主题:该数据集侧重于餐厅的描述。
数据验证:通过策划人员验证
数据预处理:进行了基本检查(长度、有效字符、重复)。
数据是否经过筛选:经过算法筛选
筛选条件:在 GEM 中使用的经过清理的版本是经过算法筛选的。他们使用正则表达式匹配所有的人工生成引用与更准确的输入,当属性产生幻觉或被删除时。此外还删除了由转换引起的训练测试重叠。结果是,该数据比原始数据要干净得多,但并不完美(相比原始数据,大约有 20% 的实例可能存在不对齐的槽)。
是否有其他注释:无
注释服务:否
有任何同意政策吗:是
同意政策详细信息:由于使用了众包平台,参与者放弃了他们对数据的权利,并且知道所产生的注释可以公开发布。
是否包含 PII:不包含 PII
不包含 PII 的理由:该数据集是人工的,不包含任何关于人员的描述。
是否有维护计划:无
基于数据的模型的使用:否
满足了弱势社区的需求吗?否
是否有已记录的社会偏见:否
语言生成者是否代表了该语言:源数据是随机生成的,因此不应包含偏见。人类参考可能受到工作者人口统计信息的影响,但在数据收集时没有对此进行调查。
数据集的版权限制:开放许可证-允许商业使用
语言数据的版权限制:开放许可证-允许商业使用
技术限制:经过清理的版本仍然有一些具有虚构或省略属性的数据点。
不适合的应用程序:数据仅与餐厅领域和包含的属性有关,不能指望模型处理其他领域或属性。