数据集:

dart

任务:

表格到文本

子任务:

rdf-to-text

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced machine-generated

批注创建人:

crowdsourced machine-generated

源数据集:

extended|wikitable_questions extended|wikisql extended|web_nlg

预印本库:

arxiv:2007.02871

许可:

mit

数据集介绍文件清单

英文

DART 数据集卡片

数据集概述

DART 是一个用于开放领域结构化数据记录到文本生成的大型数据集。我们将结构化数据记录输入视为一组 RDF 实体关系三元组，该格式广泛用于知识表示和语义描述。DART 包含82,191个来自不同领域的样本，每个输入都是从表格中的数据记录和模式的树本体中导出的语义 RDF 三元组集，用句子描述了三元组集中的所有事实。这种分层、结构化的格式及其开放域的特性使 DART 与其他现有的表格到文本语料库不同。

支持的任务和排行榜

DART 相关的任务是从作为 RDF 三元组的数据记录中生成文本：

rdf-to-text ：该数据集可用于训练模型，从 RDF 三元组生成文本描述，即生成结构化数据的文本描述。该任务通常通过实现高准确率的文本生成来衡量成功，包括 BLEU ， METEOR ， BLEURT ， TER ， MoverScore 和 BERTScore 。目前，（ BART-large model 、 BART ）模型的得分如下:

BLEU	METEOR	TER	MoverScore	BERTScore	BLEURT
BART	37.06	0.36	0.57	0.44	0.92	0.22

该任务有一个活动排行榜，可以在此找到 here ，并根据上述指标对模型进行排名，同时进行报告。

语言

数据集使用英文（en）编写。

数据集结构

数据实例

以下是数据集中的一个示例：

{'annotations': {'source': ['WikiTableQuestions_mturk'],
  'text': ['First Clearing\tbased on Callicoon, New York and location at On NYS 52 1 Mi. Youngsville']},
 'subtree_was_extended': False,
 'tripleset': [['First Clearing', 'LOCATION', 'On NYS 52 1 Mi. Youngsville'],
  ['On NYS 52 1 Mi. Youngsville', 'CITY_OR_TOWN', 'Callicoon, New York']]}

它包含一个注释，其中文本描述为 'First Clearing based on Callicoon, New York and location at On NYS 52 1 Mi. Youngsville'。用于生成此描述的 RDF 三元组集位于 tripleset 中，格式为主语、谓词、宾语。

数据字段

不同的字段包括：

annotations ：
- text ：三元组的文本描述列表
- source ：RDF 三元组的来源列表（WikiTable、e2e 等）
subtree_was_extended ：布尔值，表示在数据集构建过程中是否扩展了子树。有时该字段可能缺失，因此设置为 None
tripleset ：RDF 三元组的列表，每个三元组包含字符串（主语、谓词、宾语）

数据拆分

数据集包含三个拆分：训练集、验证集和测试集：

train	validation	test
N. Examples	30526	2768	6959

数据集创建

策划理由

自动从结构化数据输入中生成文本描述对于提高知识库对普通用户的可访问性至关重要。

源数据

DART 来自覆盖多个不同领域的现有数据集，同时允许构建树本体并形成 RDF 三元组集作为语义表示。使用的数据集包括 WikiTableQuestions、WikiSQL、WebNLG 和经过清理的 E2E。

初始数据收集和归一化

DART 使用多种互补方法构建：（1）人工注释开放领域的维基百科表格，来自 WikiTableQuestions（Pasupat 和 Liang，2015）和 WikiSQL（Zhong 等，2017）；（2）将 WikiSQL 中的问题自动转换为声明性句子；（3）引入其他现有数据集，包括 WebNLG 2017（Gardent 等，2017a,b；Shimorina 和 Gardent，2018）和经过清理的 E2E（Novikova 等，2017b；Dušek 等，2018, 2019）。

数据源语言的生产者是谁？

[需要更多信息]

注释

注释过程

构建三元组句子对的两阶段注释过程基于每个表的树形本体。首先，内部熟练的注释员为每个列标题指定父列。然后，一组更多的注释员对行中的自动选择的一部分表格单元提供句子描述。

谁是标注者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

根据 MIT 许可证（请参阅 here ）

引用信息

@article{radev2020dart,
  title={DART: Open-Domain Structured Data Record to Text Generation},
  author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher},
  journal={arXiv preprint arXiv:2007.02871},
  year={2020}

贡献者

感谢 @lhoestq 添加此数据集。

作者:

佚名

数据集大小:

13.87 KB