您可以在 GEM Website 找到主数据卡。
DART是一个聚合了多个其他数据到文本数据集的英文数据集,采用了一种常见的基于三元组的格式。新格式完全是平面的,因此不需要模型学习分层结构,同时仍保留完整的信息。
您可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/dart')
数据加载器可以在 here 找到。
网站n/a
论文 作者Linyong Nan, Dragomir Radev, Rui Zhang, Amrit Rau, Abhinand Sivaprasad, Chiachun Hsieh, Xiangru Tang, Aadit Vyas, Neha Verma, Pranav Krishna, Yangxiaokang Liu, Nadia Irwanto, Jessica Pan, Faiaz Rahman, Ahmad Zaidi, Mutethia Mutuma, Yasin Tarabar, Ankit Gupta, Tao Yu, Yi Chern Tan, Xi Victoria Lin, Caiming Xiong, Richard Socher, Nazneen Fatema Rajani
@inproceedings{nan-etal-2021-dart, title = "{DART}: Open-Domain Structured Data Record to Text Generation", author = "Nan, Linyong and Radev, Dragomir and Zhang, Rui and Rau, Amrit and Sivaprasad, Abhinand and Hsieh, Chiachun and Tang, Xiangru and Vyas, Aadit and Verma, Neha and Krishna, Pranav and Liu, Yangxiaokang and Irwanto, Nadia and Pan, Jessica and Rahman, Faiaz and Zaidi, Ahmad and Mutuma, Mutethia and Tarabar, Yasin and Gupta, Ankit and Yu, Tao and Tan, Yi Chern and Lin, Xi Victoria and Xiong, Caiming and Socher, Richard and Rajani, Nazneen Fatema", booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies", month = jun, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.naacl-main.37", doi = "10.18653/v1/2021.naacl-main.37", pages = "432--447", abstract = "We present DART, an open domain structured DAta Record to Text generation dataset with over 82k instances (DARTs). Data-to-text annotations can be a costly process, especially when dealing with tables which are the major source of structured data and contain nontrivial structures. To this end, we propose a procedure of extracting semantic triples from tables that encodes their structures by exploiting the semantic dependencies among table headers and the table title. Our dataset construction framework effectively merged heterogeneous sources from open domain semantic parsing and spoken dialogue systems by utilizing techniques including tree ontology annotation, question-answer pair to declarative sentence conversion, and predicate unification, all with minimum post-editing. We present systematic evaluation on DART as well as new state-of-the-art results on WebNLG 2017 to show that DART (1) poses new challenges to existing data-to-text datasets and (2) facilitates out-of-domain generalization. Our data and code can be found at https://github.com/Yale-LILY/dart.", }联系人姓名
Dragomir Radev, Rui Zhang, Nazneen Rajani
联系人邮箱{dragomir.radev, r.zhang}@yale.edu, {nazneen.rajani}@salesforce.com
有排行榜吗?是
排行榜链接 排行榜详情DART上评估了多种最先进的表到文本模型,例如BART( Lewis et al., 2020 ),Seq2Seq-Att( MELBOURNE )和End-to-End Transformer( Castro Ferreira et al., 2019 )。排行榜报告了BLEU、METEOR、TER、MoverScore、BERTScore和BLEURT分数。
否
涵盖的方言它是从使用普通美式英语或英式英语而没有方言区分的多个其他数据集聚合而成的。
涵盖的语言英文
谁的语言?该数据集是从多个在不同平台上众包的其他数据集中聚合而成的。
许可证Mtt:MIT许可证
预期用途该数据集旨在进一步研究从语义数据生成自然语言的领域。
主任务数据到文本
交流目标使用者需要产生连贯的句子并构造树形结构的列标题本体论。
学术机构,行业
策展组织圣地亚哥大学,Yale大学,MIT,Facebook实验室
数据集创建者Linyong Nan, Dragomir Radev, Rui Zhang, Amrit Rau, Abhinand Sivaprasad, Chiachun Hsieh, Xiangru Tang, Aadit Vyas, Neha Verma, Pranav Krishna, Yangxiaokang Liu, Nadia Irwanto, Jessica Pan, Faiaz Rahman, Ahmad Zaidi, Mutethia Mutuma, Yasin Tarabar, Ankit Gupta, Tao Yu, Yi Chern Tan, Xi Victoria Lin, Caiming Xiong, Richard Socher, Nazneen Fatema Rajani
谁将数据集添加到GEM中?Miruna Clinciu贡献了原始数据卡,Yacine Jernite编写了初始数据加载器。Sebastian Gehrmann将数据卡和加载器迁移到新的格式。
- tripleset :一个元组列表,每个元组有3个项目- subtree_was_extended :一个布尔变量(true或false)- annotations :一个包含源和文本键的字典列表。- source :一个字符串,提到源表的名称。- text :一个句子字符串。
结构的原因该结构旨在能够处理超越“扁平”属性-值对的更复杂结构,而是编码分层关系。
标签是如何选择的?它们是现有数据集和利用层次结构的新注释的组合
示例实例{ "tripleset": [ [ "Ben Mauk", "High school", "Kenton" ], [ "Ben Mauk", "College", "Wake Forest Cincinnati" ] ], "subtree_was_extended": false, "annotations": [ { "source": "WikiTableQuestions_lily", "text": "Ben Mauk, who attended Kenton High School, attended Wake Forest Cincinnati for college." } ] }数据拆分
|Input Unit | Examples | Vocab Size | Words per SR | Sents per SR | Tables || ------------- | ------------- || ------------- || ------------- || ------------- || ------------- ||Triple Set | 82,191 | 33.2K | 21.6 | 1.5 | 5,623 |
|Train | Dev | Test|| ------------- | ------------- || ------------- || 62,659 | 6,980 | 12,552|
DART的统计数据根据不同的数据集分解。DART在唯一谓词数量、唯一三元组数量和词汇量方面具有很大的主题多样性。这些统计数据是从DART v1.1.1计算得到的;报告的唯一谓词数是后合并的(参见第3.4节)。SR:表面表达。 details in Table 1 and 2 .
分割标准对于WebNLG 2017和Cleaned E2E,DART使用原始数据的拆分。对于WikiTableQuestions和WikiSQL上的新注释,基于Jaccard相似度的随机拆分使得训练、开发和测试集包含类似的表和类似的示例。因此,它们被划分为不同的类似性,以确保没有训练示例与测试示例的相似度超过0.5
DART是一个大型的开放领域结构化数据记录到文本生成语料库,具有高质量的句子注释,每个输入都是一个遵循树形结构本体的实体关系三元组集合。
类似数据集是
独特的语言覆盖范围否
与其他GEM数据集的差异树形结构在GEM数据集中是独特的
数据集衡量的能力推理,表面实现
否
是否有其他数据拆分?否
DART的实验结果显示,BART模型在三个模型中具有最高的性能,BLEU得分为37.06。这归因于BART由于预训练具有的泛化能力( Table 4 )。
推理,表面实现
指标BLEU , MoverScore , BERT-Score , BLEURT
提出的评估排行榜使用BLEU、METEOR、TER、MoverScore、BERTScore、PARENT和BLEURT的组合来克服n-gram重叠度量的局限性。进行了100个数据点的小规模人工注释,跨以下维度进行评估:(1)流畅性-句子是否自然和语法正确,(2)语义忠实度-句子是否受输入三元组支持。
以前的结果是否可用?是
其他评估方法暂无
相关的以前结果BART目前在排行榜上的表现最好。
数据集创建者通过DART鼓励进一步研究从语义数据生成自然语言的领域。DART提供了高质量的句子注释,其中每个输入都是根据给定表的树形结构的实体关系三元组集合。
交流目标使用者需要产生连贯的句子和构建树形结构的列标题本体论。
来自不同来源是
来源详情发现,为数据集创建
数据获取位置离线媒体收集
创建过程创建者提出了一个两阶段的注释过程,用于根据每个表的树形本体论构造三元组集句子对。首先,内部熟练的注释员确定每个列标题的父列。然后,更多的注释员对一行中自动选择的一小部分表格单元格进行句子描述。为了形成三元组集句子对,可以根据给定表的列本体通过突出显示的单元格自动转换为连接的三元组集。
语言制作方没有提供关于MTurk工作者的进一步信息。
涵盖的主题子数据集来自维基百科,DBPedia和人工创建的餐厅数据。
数据验证由众包工人验证
是否过滤了数据?没有过滤
没有
注释服务?没有
没有
使用数据的理由新的注释基于维基百科,维基表格问题和维基SQL,这些数据都是可以重复使用的(需署名)。
无PII
无PII的理由这些数据集都没有涉及到个人。
没有
没有
没有
没有
语言制作者是否代表了该语言?不,注释员是众包平台上的评分员,因此只代表他们的人口统计信息。
开放许可证 - 允许商业使用
语言数据的版权限制开放许可证 - 允许商业使用
数据集可能包含一些社会偏见,因为输入句子是基于维基百科(WikiTableQuestions,WikiSQL,WebNLG)的。研究表明,英文维基百科存在性别偏见( Dinan et al., 2020 ),种族偏见(Papakyriakopoulos et al.,2020)和地理偏见( Livingstone et al., 2010 )。 More info 。
不适用的应用程序端到端变压器的性能最低,因为变压器模型需要中间流程规划步骤才能提高性能。 Castro Ferreira et al., 2019 中也可以找到类似的发现。