数据集:

Babelscape/rebel-dataset

英文

cc-by-nc-sa-4.0---annotations_creators:

  • machine-generatedlanguage_creators:
  • machine-generatedlanguage:
  • enmultilinguality:
  • monolingualsize_categories:
  • unknownsource_datasets:
  • originaltask_categories:
  • text-retrieval
  • text-generationtask_ids: []pretty_name: rebel-datasettags:
  • relation-extraction
  • conditional-text-generation

REBEL数据集的数据卡

数据集概要

这个数据集是为了从互联维基数据和维基百科中为关系提取创建的,使用NLI进行过滤。

支持的任务和排行榜

  • text-retrieval-other-relation-extraction:该数据集可用于训练关系提取模型,该模型用于从原始文本中提取由主题、对象和关系类型组成的三元组。该任务的成功通常通过实现高的 F1 来衡量。目前, BART 模型的得分如下:对于最常见的220种关系类型,Micro F1为74,Macro F1为51。

语言

该数据集是英文数据集,来自英文维基百科。

数据集结构

数据实例

REBEL

  • 下载的数据集文件大小:1490.02 MB
  • 生成的数据集大小:1199.27 MB
  • 总计使用的磁盘量:2689.29 MB
{
  'id': 'Q82442-1',
  'title': 'Arsène Lupin, Gentleman Burglar',
  'context': 'Arsène Lupin , Gentleman Burglar is the first collection of stories by Maurice Leblanc recounting the adventures of Arsène Lupin , released on 10 June 1907 .',
  'triplets': '<triplet> Arsène Lupin, Gentleman Burglar <subj> Maurice Leblanc <obj> author <triplet> Arsène Lupin <subj> Maurice Leblanc <obj> creator'
}

原始数据以jsonl格式存在,并包含更多信息。它按维基百科文章进行划分,而不是按句子划分,并包含有关维基数据实体的元数据、它们在文本中的边界、如何进行注释等等的信息。有关更多信息,请参考 paper repository 和使用关系提取数据集流水线生成的方式, cRocoDiLe

数据字段

列出并描述数据集中存在的字段。提到它们的数据类型,并说明它们是否在数据集当前支持的任何任务的输入或输出中使用。如果数据有跨度索引,描述它们的属性,例如它们是在字符级还是词级,它们是否是连续的等等。如果数据集包含示例ID,请说明它们是否具有固有含义,例如与其他数据集的映射或数据点之间的关系。

  • id:实例的ID。它包含与维基百科页面匹配的唯一ID,并由一个连字符分隔的数字表示,指示它是维基百科文章的哪个句子。
  • title:该句子所属的维基百科页面的标题。
  • context:用作关系提取任务上下文的维基百科文章的文本。
  • triplets:文本中存在的三元组的线性化版本,以特殊标记的使用进行拆分。有关此线性化的更多信息,请参阅 paper

数据拆分

测试和验证拆分分别占原始数据的5%。

提供每个拆分的大小。根据需要,提供特征的任何描述性统计信息,如平均长度。例如:

Tain Valid Test
Input Sentences 3,120,296 172,860 173,601
Input Sentences (top 220 relation types as used in original paper) 784,202 43,341 43,506
Number of Triplets (top 220 relation types as used in original paper) 878,555 48,514 48,852

数据集创建

策划理由

创建此数据集是为了实现基于BART的模型的预训练阶段,用于关系提取,如论文 REBEL: Relation Extraction By End-to-end Language generation 中所述。

源数据

数据来自维基百科文本,在目录表之前,以及维基数据用于三元组注释。

初始数据收集和规范化

数据收集使用 cRocoDiLe: Automati c R elati o n Extra c ti o n D ataset w i th N L I filt e ring 的数据集提取流水线,受到 T-REx Pipeline 的启发,更多细节请参见: T-REx Website 。起点是维基百科和维基数据的转储。

在提取出三元组之后,使用NLI系统过滤掉那些不由文本所导致的三元组。

谁是源语言生产者?

任何维基百科和维基数据的贡献者。

注释

注释过程

数据集提取流水线 cRocoDiLe: Automati c R elati o n Extra c ti o n D ataset w i th N L I filt e ring

谁是标注人员?

自动标注。

个人和敏感信息

所有文本来自维基百科,其中可能存在个人或敏感信息。

使用数据的注意事项

数据的社会影响

该数据集用作关系提取模型的预训练步骤。它是以远程方式进行注释的,因此只能用于此目的。仅使用该数据集训练的模型可能会产生幻觉,这是由于数据集的银色属性。

偏见讨论

由于该数据集是从维基百科和维基数据自动创建的,因此可能反映了这些来源中的偏见。

对于维基百科的文本,可以参考 Dinan et al 2020 on biases in Wikipedia (esp. Table 1) 进行了解,或者可以参考 Blodgett et al 2020 进行更全面的讨论。

对于维基数据,由于维基百科的原因,存在类别不平衡问题。

其他已知限制

目前没有。

附加信息

数据集策划者

Pere-Lluis Huguet Cabot - Babelscape和Sapienza罗马大学,意大利Roberto Navigli - Sapienza罗马大学,意大利

许可信息

该存储库的内容仅限于非商业研究目的,根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0) 限制。数据集内容的版权属于原版权持有人。

引用信息

提供数据集的 BibTex 格式化参考。例如:

@inproceedings{huguet-cabot-navigli-2021-rebel,
title = "REBEL: Relation Extraction By End-to-end Language generation",
author = "Huguet Cabot, Pere-Llu{\'\i}s  and
    Navigli, Roberto",
booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021",
month = nov,
year = "2021",
address = "Online and in the Barceló Bávaro Convention Centre, Punta Cana, Dominican Republic",
publisher = "Association for Computational Linguistics",
url = "https://github.com/Babelscape/rebel/blob/main/docs/EMNLP_2021_REBEL__Camera_Ready_.pdf",
}

贡献

感谢 @littlepea13 添加此数据集。