数据集:
dart
DART 是一个用于开放领域结构化数据记录到文本生成的大型数据集。我们将结构化数据记录输入视为一组 RDF 实体关系三元组,该格式广泛用于知识表示和语义描述。DART 包含82,191个来自不同领域的样本,每个输入都是从表格中的数据记录和模式的树本体中导出的语义 RDF 三元组集,用句子描述了三元组集中的所有事实。这种分层、结构化的格式及其开放域的特性使 DART 与其他现有的表格到文本语料库不同。
DART 相关的任务是从作为 RDF 三元组的数据记录中生成文本:
BLEU | METEOR | TER | MoverScore | BERTScore | BLEURT | |
---|---|---|---|---|---|---|
BART | 37.06 | 0.36 | 0.57 | 0.44 | 0.92 | 0.22 |
该任务有一个活动排行榜,可以在此找到 here ,并根据上述指标对模型进行排名,同时进行报告。
数据集使用英文(en)编写。
以下是数据集中的一个示例:
{'annotations': {'source': ['WikiTableQuestions_mturk'], 'text': ['First Clearing\tbased on Callicoon, New York and location at On NYS 52 1 Mi. Youngsville']}, 'subtree_was_extended': False, 'tripleset': [['First Clearing', 'LOCATION', 'On NYS 52 1 Mi. Youngsville'], ['On NYS 52 1 Mi. Youngsville', 'CITY_OR_TOWN', 'Callicoon, New York']]}
它包含一个注释,其中文本描述为 'First Clearing based on Callicoon, New York and location at On NYS 52 1 Mi. Youngsville'。用于生成此描述的 RDF 三元组集位于 tripleset 中,格式为主语、谓词、宾语。
不同的字段包括:
数据集包含三个拆分:训练集、验证集和测试集:
train | validation | test | |
---|---|---|---|
N. Examples | 30526 | 2768 | 6959 |
自动从结构化数据输入中生成文本描述对于提高知识库对普通用户的可访问性至关重要。
DART 来自覆盖多个不同领域的现有数据集,同时允许构建树本体并形成 RDF 三元组集作为语义表示。使用的数据集包括 WikiTableQuestions、WikiSQL、WebNLG 和经过清理的 E2E。
初始数据收集和归一化
DART 使用多种互补方法构建:(1)人工注释开放领域的维基百科表格,来自 WikiTableQuestions(Pasupat 和 Liang,2015)和 WikiSQL(Zhong 等,2017);(2)将 WikiSQL 中的问题自动转换为声明性句子;(3)引入其他现有数据集,包括 WebNLG 2017(Gardent 等,2017a,b;Shimorina 和 Gardent,2018)和经过清理的 E2E(Novikova 等,2017b;Dušek 等,2018, 2019)。
数据源语言的生产者是谁?[需要更多信息]
DART 使用多种互补方法构建:(1)人工注释开放领域的维基百科表格,来自 WikiTableQuestions(Pasupat 和 Liang,2015)和 WikiSQL(Zhong 等,2017);(2)将 WikiSQL 中的问题自动转换为声明性句子;(3)引入其他现有数据集,包括 WebNLG 2017(Gardent 等,2017a,b;Shimorina 和 Gardent,2018)和经过清理的 E2E(Novikova 等,2017b;Dušek 等,2018, 2019)。
注释过程构建三元组句子对的两阶段注释过程基于每个表的树形本体。首先,内部熟练的注释员为每个列标题指定父列。然后,一组更多的注释员对行中的自动选择的一部分表格单元提供句子描述。
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
根据 MIT 许可证(请参阅 here )
@article{radev2020dart, title={DART: Open-Domain Structured Data Record to Text Generation}, author={Dragomir Radev and Rui Zhang and Amrit Rau and Abhinand Sivaprasad and Chiachun Hsieh and Nazneen Fatema Rajani and Xiangru Tang and Aadit Vyas and Neha Verma and Pranav Krishna and Yangxiaokang Liu and Nadia Irwanto and Jessica Pan and Faiaz Rahman and Ahmad Zaidi and Murori Mutuma and Yasin Tarabar and Ankit Gupta and Tao Yu and Yi Chern Tan and Xi Victoria Lin and Caiming Xiong and Richard Socher}, journal={arXiv preprint arXiv:2007.02871}, year={2020}
感谢 @lhoestq 添加此数据集。