英文

deepa2 数据集收集

数据集概述

这是一个不断增长的、精心策划的 deepa2 数据集收集,即包含对论证性文本进行全面逻辑分析的数据集。这个收集包含以下内容:

  • 通过 deepa2 bake 工具从现有 NLP 数据集构建的数据集。
  • 专门为这个收集创建的原始 deepa2 数据集。

可以使用 deepa2 serve 工具将此收集中的数据渲染为文本到文本的示例。

支持的任务和榜单

对于为该数据集标注任务的每个任务,简要描述标签、指标和建议的模型(如果有的话,附带到其 HuggingFace 实现的链接)。对于未包括在结构化标签集中的任务,给出类似的描述(将 task-category-tag 替换为适当的 other:other-task-name)。

  • 条件文本生成:数据集可用于训练模型,从源文本生成一个完全重构的论证,使其隐含的假设显性化,例如。
  • 结构预测:数据集可用于训练模型来形式化句子。
  • 文本检索:数据集可用于训练模型从给定源文本中提取原因陈述和猜想。

语言

英语,将来将扩展到其他语言。

数据集结构

子数据集

此收集包含以下 deepa2 数据集:

数据实例

参见: https://github.com/debatelab/deepa2/tree/main/docs

数据字段

参见: https://github.com/debatelab/deepa2/tree/main/docs

feature esnli enbank aifdb aaac argq argkp
source_text x x x x x x
title x x
gist x x x x
source_paraphrase x x x x
context x x x
reasons x x x x x
conjectures x x x x x
argdown_reconstruction x x x x
erroneous_argdown x x
premises x x x x
intermediary_conclusion x
conclusion x x x x
premises_formalized x x x
intermediary_conclusion_formalized x
conclusion_formalized x x x
predicate_placeholders x
entity_placeholders x
misc_placeholders x x x
plchd_substitutions x x x

数据划分

每个子数据集包含三个划分:训练集、验证集和测试集。

数据集创建

策划理由

许多 NLP 数据集专注于逻辑分析和论证重构相关的任务。此收集试图将这些资源统一在一个共同的框架中。

源数据

参见:子数据集

附加信息

数据集策划者

Gregor Betz, KIT; Kyle Richardson, Allen AI

许可信息

我们根据其原始许可证重新分发导入的子数据集:

Sub-dataset License
esnli MIT
aifdb free for academic use ( 12311321 )
enbank CC BY 4.0
aaac CC BY 4.0
argq CC BY SA 4.0
argkp Apache

引用信息

@article{betz2021deepa2,
      title={DeepA2: A Modular Framework for Deep Argument Analysis with Pretrained Neural Text2Text Language Models}, 
      author={Gregor Betz and Kyle Richardson},
      year={2021},
      eprint={2110.01509},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}