数据集:

GEM/dart

任务:

表格到文本

语言:

计算机处理:

unknown

大小:

size_categories:unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original

预印本库:

arxiv:1910.13461 arxiv:1908.09022 arxiv:2007.02871

其他:

data-to-text

许可:

mit

数据集介绍文件清单

英文

GEM/dart 数据集卡

主数据卡链接

您可以在 GEM Website 找到主数据卡。

数据集概述

DART是一个聚合了多个其他数据到文本数据集的英文数据集，采用了一种常见的基于三元组的格式。新格式完全是平面的，因此不需要模型学习分层结构，同时仍保留完整的信息。

您可以通过以下方式加载数据集：

import datasets
data = datasets.load_dataset('GEM/dart')

数据加载器可以在 here 找到。

网站

n/a

论文

ACL Anthology

作者

Linyong Nan, Dragomir Radev, Rui Zhang, Amrit Rau, Abhinand Sivaprasad, Chiachun Hsieh, Xiangru Tang, Aadit Vyas, Neha Verma, Pranav Krishna, Yangxiaokang Liu, Nadia Irwanto, Jessica Pan, Faiaz Rahman, Ahmad Zaidi, Mutethia Mutuma, Yasin Tarabar, Ankit Gupta, Tao Yu, Yi Chern Tan, Xi Victoria Lin, Caiming Xiong, Richard Socher, Nazneen Fatema Rajani

数据集概览

数据和文档的获取方式

下载

Github

论文

ACL Anthology

BibTex

@inproceedings{nan-etal-2021-dart,
    title = "{DART}: Open-Domain Structured Data Record to Text Generation",
    author = "Nan, Linyong  and
      Radev, Dragomir  and
      Zhang, Rui  and
      Rau, Amrit  and
      Sivaprasad, Abhinand  and
      Hsieh, Chiachun  and
      Tang, Xiangru  and
      Vyas, Aadit  and
      Verma, Neha  and
      Krishna, Pranav  and
      Liu, Yangxiaokang  and
      Irwanto, Nadia  and
      Pan, Jessica  and
      Rahman, Faiaz  and
      Zaidi, Ahmad  and
      Mutuma, Mutethia  and
      Tarabar, Yasin  and
      Gupta, Ankit  and
      Yu, Tao  and
      Tan, Yi Chern  and
      Lin, Xi Victoria  and
      Xiong, Caiming  and
      Socher, Richard  and
      Rajani, Nazneen Fatema",
    booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
    month = jun,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.naacl-main.37",
    doi = "10.18653/v1/2021.naacl-main.37",
    pages = "432--447",
    abstract = "We present DART, an open domain structured DAta Record to Text generation dataset with over 82k instances (DARTs). Data-to-text annotations can be a costly process, especially when dealing with tables which are the major source of structured data and contain nontrivial structures. To this end, we propose a procedure of extracting semantic triples from tables that encodes their structures by exploiting the semantic dependencies among table headers and the table title. Our dataset construction framework effectively merged heterogeneous sources from open domain semantic parsing and spoken dialogue systems by utilizing techniques including tree ontology annotation, question-answer pair to declarative sentence conversion, and predicate unification, all with minimum post-editing. We present systematic evaluation on DART as well as new state-of-the-art results on WebNLG 2017 to show that DART (1) poses new challenges to existing data-to-text datasets and (2) facilitates out-of-domain generalization. Our data and code can be found at https://github.com/Yale-LILY/dart.",
}

联系人姓名

Dragomir Radev, Rui Zhang, Nazneen Rajani

联系人邮箱

{dragomir.radev, r.zhang}@yale.edu, {nazneen.rajani}@salesforce.com

有排行榜吗？

是

排行榜链接

Leaderboard

排行榜详情

DART上评估了多种最先进的表到文本模型，例如BART（ Lewis et al., 2020 ），Seq2Seq-Att（ MELBOURNE ）和End-to-End Transformer（ Castro Ferreira et al., 2019 ）。排行榜报告了BLEU、METEOR、TER、MoverScore、BERTScore和BLEURT分数。

语言和预期用途

多语言？

否

涵盖的方言

它是从使用普通美式英语或英式英语而没有方言区分的多个其他数据集聚合而成的。

涵盖的语言

英文

谁的语言？

该数据集是从多个在不同平台上众包的其他数据集中聚合而成的。

许可证

Mtt：MIT许可证

预期用途

该数据集旨在进一步研究从语义数据生成自然语言的领域。

主任务

数据到文本

交流目标

使用者需要产生连贯的句子并构造树形结构的列标题本体论。

功劳

策展组织类型

学术机构，行业

策展组织

圣地亚哥大学，Yale大学，MIT，Facebook实验室

数据集创建者

谁将数据集添加到GEM中？

Miruna Clinciu贡献了原始数据卡，Yacine Jernite编写了初始数据加载器。Sebastian Gehrmann将数据卡和加载器迁移到新的格式。

数据集结构

数据字段

- tripleset ：一个元组列表，每个元组有3个项目- subtree_was_extended ：一个布尔变量（true或false）- annotations ：一个包含源和文本键的字典列表。- source ：一个字符串，提到源表的名称。- text ：一个句子字符串。

结构的原因

该结构旨在能够处理超越“扁平”属性-值对的更复杂结构，而是编码分层关系。

标签是如何选择的？

它们是现有数据集和利用层次结构的新注释的组合

示例实例

 {
    "tripleset": [
      [
        "Ben Mauk",
        "High school",
        "Kenton"
      ],
      [
        "Ben Mauk",
        "College",
        "Wake Forest Cincinnati"
      ]
    ],
    "subtree_was_extended": false,
    "annotations": [
      {
        "source": "WikiTableQuestions_lily",
        "text": "Ben Mauk, who attended Kenton High School, attended Wake Forest Cincinnati for college."
      }
    ]
  }

数据拆分

|Input Unit | Examples | Vocab Size | Words per SR | Sents per SR | Tables || ------------- | ------------- || ------------- || ------------- || ------------- || ------------- ||Triple Set | 82,191 | 33.2K | 21.6 | 1.5 | 5,623 |

|Train | Dev | Test|| ------------- | ------------- || ------------- || 62,659 | 6,980 | 12,552|

DART的统计数据根据不同的数据集分解。DART在唯一谓词数量、唯一三元组数量和词汇量方面具有很大的主题多样性。这些统计数据是从DART v1.1.1计算得到的；报告的唯一谓词数是后合并的（参见第3.4节）。SR：表面表达。 details in Table 1 and 2 .

分割标准

对于WebNLG 2017和Cleaned E2E，DART使用原始数据的拆分。对于WikiTableQuestions和WikiSQL上的新注释，基于Jaccard相似度的随机拆分使得训练、开发和测试集包含类似的表和类似的示例。因此，它们被划分为不同的类似性，以确保没有训练示例与测试示例的相似度超过0.5

GEM中的数据集

纳入GEM的原因

为何将数据集纳入GEM中？

DART是一个大型的开放领域结构化数据记录到文本生成语料库，具有高质量的句子注释，每个输入都是一个遵循树形结构本体的实体关系三元组集合。

类似数据集

是

独特的语言覆盖范围

否

与其他GEM数据集的差异

树形结构在GEM数据集中是独特的

数据集衡量的能力

推理，表面实现

GEM特定的策展

是否为GEM修改？

否

是否有其他数据拆分？

否

开始任务

资源指针

DART的实验结果显示，BART模型在三个模型中具有最高的性能，BLEU得分为37.06。这归因于BART由于预训练具有的泛化能力（ Table 4 ）。

以前的结果

评估的模型能力

推理，表面实现

指标

BLEU , MoverScore , BERT-Score , BLEURT

提出的评估

排行榜使用BLEU、METEOR、TER、MoverScore、BERTScore、PARENT和BLEURT的组合来克服n-gram重叠度量的局限性。进行了100个数据点的小规模人工注释，跨以下维度进行评估：（1）流畅性-句子是否自然和语法正确，（2）语义忠实度-句子是否受输入三元组支持。

以前的结果是否可用？

是

其他评估方法

暂无

数据集策展

原始策展

原始策展理由

数据集创建者通过DART鼓励进一步研究从语义数据生成自然语言的领域。DART提供了高质量的句子注释，其中每个输入都是根据给定表的树形结构的实体关系三元组集合。

交流目标

使用者需要产生连贯的句子和构建树形结构的列标题本体论。

来自不同来源

是

来源详情

人工注释：基于来自WikiTableQuestions（ Pasupat and Liang, 2015 ）和WikiSQL（ Zhong et al., 2017 ）的开放领域维基百科表格
自动转换：将WikiSQL中的问题转换为陈述性句子
引入现有数据集：包括WebNLG 2017（Gardent et al.，2017）和Cleaned E2E（Dušek et al.，）

语言数据

语言数据获取方式

发现，为数据集创建

数据获取位置

离线媒体收集

创建过程

创建者提出了一个两阶段的注释过程，用于根据每个表的树形本体论构造三元组集句子对。首先，内部熟练的注释员确定每个列标题的父列。然后，更多的注释员对一行中自动选择的一小部分表格单元格进行句子描述。为了形成三元组集句子对，可以根据给定表的列本体通过突出显示的单元格自动转换为连接的三元组集。

语言制作方

没有提供关于MTurk工作者的进一步信息。

涵盖的主题

子数据集来自维基百科，DBPedia和人工创建的餐厅数据。

数据验证

由众包工人验证

是否过滤了数据？

没有过滤

结构化注释

有其他注释吗？

没有

注释服务？

没有

同意

是否有同意政策？

没有

使用数据的理由

新的注释基于维基百科，维基表格问题和维基SQL，这些数据都是可以重复使用的（需署名）。

私人识别信息（PII）

包含PII吗？

无PII

无PII的理由

这些数据集都没有涉及到个人。

维护

有维护计划吗？

没有

更广泛的社会背景

有关数据集社会影响的以前工作

基于数据的模型的使用

没有

对弱势群体的影响

是否满足弱势群体的需求？

没有

偏见讨论

是否存在记录的社会偏见？

没有

语言制作者是否代表了该语言？

不，注释员是众包平台上的评分员，因此只代表他们的人口统计信息。

使用数据时的注意事项

PII风险和责任

许可证

数据集的版权限制

开放许可证 - 允许商业使用

语言数据的版权限制

开放许可证 - 允许商业使用

已知的技术限制

技术限制

数据集可能包含一些社会偏见，因为输入句子是基于维基百科（WikiTableQuestions，WikiSQL，WebNLG）的。研究表明，英文维基百科存在性别偏见（ Dinan et al., 2020 ），种族偏见（Papakyriakopoulos et al.，2020）和地理偏见（ Livingstone et al., 2010 ）。 More info 。

不适用的应用程序

端到端变压器的性能最低，因为变压器模型需要中间流程规划步骤才能提高性能。 Castro Ferreira et al., 2019 中也可以找到类似的发现。

作者:

GEM

数据集大小:

51.17 KB