数据集:
Babelscape/rebel-dataset
语言:
en计算机处理:
monolingual语言创建人:
machine-generated批注创建人:
machine-generated源数据集:
original预印本库:
arxiv:2005.00614许可:
cc-by-sa-4.0cc-by-nc-sa-4.0---annotations_creators:
这个数据集是为了从互联维基数据和维基百科中为关系提取创建的,使用NLI进行过滤。
该数据集是英文数据集,来自英文维基百科。
REBEL
{ 'id': 'Q82442-1', 'title': 'Arsène Lupin, Gentleman Burglar', 'context': 'Arsène Lupin , Gentleman Burglar is the first collection of stories by Maurice Leblanc recounting the adventures of Arsène Lupin , released on 10 June 1907 .', 'triplets': '<triplet> Arsène Lupin, Gentleman Burglar <subj> Maurice Leblanc <obj> author <triplet> Arsène Lupin <subj> Maurice Leblanc <obj> creator' }
原始数据以jsonl格式存在,并包含更多信息。它按维基百科文章进行划分,而不是按句子划分,并包含有关维基数据实体的元数据、它们在文本中的边界、如何进行注释等等的信息。有关更多信息,请参考 paper repository 和使用关系提取数据集流水线生成的方式, cRocoDiLe 。
列出并描述数据集中存在的字段。提到它们的数据类型,并说明它们是否在数据集当前支持的任何任务的输入或输出中使用。如果数据有跨度索引,描述它们的属性,例如它们是在字符级还是词级,它们是否是连续的等等。如果数据集包含示例ID,请说明它们是否具有固有含义,例如与其他数据集的映射或数据点之间的关系。
测试和验证拆分分别占原始数据的5%。
提供每个拆分的大小。根据需要,提供特征的任何描述性统计信息,如平均长度。例如:
Tain | Valid | Test | |
---|---|---|---|
Input Sentences | 3,120,296 | 172,860 | 173,601 |
Input Sentences (top 220 relation types as used in original paper) | 784,202 | 43,341 | 43,506 |
Number of Triplets (top 220 relation types as used in original paper) | 878,555 | 48,514 | 48,852 |
创建此数据集是为了实现基于BART的模型的预训练阶段,用于关系提取,如论文 REBEL: Relation Extraction By End-to-end Language generation 中所述。
数据来自维基百科文本,在目录表之前,以及维基数据用于三元组注释。
初始数据收集和规范化数据收集使用 cRocoDiLe: Automati c R elati o n Extra c ti o n D ataset w i th N L I filt e ring 的数据集提取流水线,受到 T-REx Pipeline 的启发,更多细节请参见: T-REx Website 。起点是维基百科和维基数据的转储。
在提取出三元组之后,使用NLI系统过滤掉那些不由文本所导致的三元组。
谁是源语言生产者?任何维基百科和维基数据的贡献者。
数据集提取流水线 cRocoDiLe: Automati c R elati o n Extra c ti o n D ataset w i th N L I filt e ring 。
谁是标注人员?自动标注。
所有文本来自维基百科,其中可能存在个人或敏感信息。
该数据集用作关系提取模型的预训练步骤。它是以远程方式进行注释的,因此只能用于此目的。仅使用该数据集训练的模型可能会产生幻觉,这是由于数据集的银色属性。
由于该数据集是从维基百科和维基数据自动创建的,因此可能反映了这些来源中的偏见。
对于维基百科的文本,可以参考 Dinan et al 2020 on biases in Wikipedia (esp. Table 1) 进行了解,或者可以参考 Blodgett et al 2020 进行更全面的讨论。
对于维基数据,由于维基百科的原因,存在类别不平衡问题。
目前没有。
Pere-Lluis Huguet Cabot - Babelscape和Sapienza罗马大学,意大利Roberto Navigli - Sapienza罗马大学,意大利
该存储库的内容仅限于非商业研究目的,根据 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0) 限制。数据集内容的版权属于原版权持有人。
提供数据集的 BibTex 格式化参考。例如:
@inproceedings{huguet-cabot-navigli-2021-rebel, title = "REBEL: Relation Extraction By End-to-end Language generation", author = "Huguet Cabot, Pere-Llu{\'\i}s and Navigli, Roberto", booktitle = "Findings of the Association for Computational Linguistics: EMNLP 2021", month = nov, year = "2021", address = "Online and in the Barceló Bávaro Convention Centre, Punta Cana, Dominican Republic", publisher = "Association for Computational Linguistics", url = "https://github.com/Babelscape/rebel/blob/main/docs/EMNLP_2021_REBEL__Camera_Ready_.pdf", }
感谢 @littlepea13 添加此数据集。