数据集:

ruanchaves/rerelem

语言:

pt

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|harem
英文

ReRelEM 数据集数据卡

数据集概述

ReRelEM 数据集用于检测和分类葡萄牙文文本中的命名实体关系。该数据集包含2226个训练实例,701个验证实例和805个测试实例。每个实例包含两个句子,两个实体被 [E1] 和 [E2] 标记包围。数据集提供了四种关系分类:相同、包含、位于和其他(细分为二十种不同的关系)。

需要注意的是,尽管我们保留了超过99%的原始实例,但这并不是对原始 ReRelEM 数据集的完整表示。数据集在将其分为训练、验证和测试集后,从测试集中删除了21个关系类型不在训练集中的实例。此外,还删除了来自原始数据集的7个具有格式错误并无法解析为后处理记录的实例。

支持的任务和排行榜

  • 关系抽取:该数据集的主要任务是分类命名实体之间的关系。

语言

  • 葡萄牙文

数据集结构

数据实例

数据集中的一个示例数据实例:

{
    "docid": "cver",
    "sentence1": "O PRESIDENTE Sarkozy abriu a Conferência de Dadores realizada em Paris com uma frase grandiloquente sobre a necessidade urgente de criar um Estado palestiniano no fim de 2008 . O Presidente ou é mentiroso ou finge-se ignorante, ou as duas coisas. Depois do falhanço esperado da cimeira de Annapolis , um modo de [E2]Condoleezza Rice[/E2] salvar a face e de a Administração | Administração americana e a Europa continuarem a fingir que estão interessadas em resolver o conflito israelo-palestiniano e de lavarem as mãos de tudo o resto, Sarkozy não pode ignorar que o momento para pronunciamentos débeis é o menos adequado. Tony Blair , depois de ter minado todo o processo de paz do Médio Oriente ao ordenar a invasão do Iraque de braço dado com [E1]Bush[/E1] , continua a emitir piedades deste género, e diz que está na altura de resolver o problema e que ele pode ser resolvido. Blair não sabe o que diz.",
    "sentence2": "nan",
    "label": "relacao_profissional",
    "same_text": true
}

数据字段

  • docid:两个句子(sentence1和sentence2)的文档ID
  • sentence1:第一个句子,其中实体范围由 [E1] 和 [/E1] 标记包围
  • sentence2:第二个句子,其中实体范围由 [E2] 和 [/E2] 标记包围
  • label:实体之间的关系类型
  • same_text:如果两个实体范围出现在同一个句子中,则为True。如果为True,sentence2 将为空。

数据拆分

train validation test
Instances 2226 701 805

数据集的划分方式确保了来自同一文档的句子不会出现在多个拆分中。

引用信息

@inproceedings{freitas2009relation,
  title={Relation detection between named entities: report of a shared task},
  author={Freitas, Cl{\\'a}udia and Santos, Diana and Mota, Cristina and Oliveira, Hugo Gon{\\c{c}}alo and Carvalho, Paula},
  booktitle={Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions (SEW-2009)},
  pages={129--137},
  year={2009}
}

贡献

感谢 @ruanchaves 添加了这个数据集。