数据集:
ruanchaves/rerelem
任务:
文本分类语言:
pt计算机处理:
monolingual大小:
1K<n<10K语言创建人:
found批注创建人:
expert-generated源数据集:
extended|haremReRelEM 数据集用于检测和分类葡萄牙文文本中的命名实体关系。该数据集包含2226个训练实例,701个验证实例和805个测试实例。每个实例包含两个句子,两个实体被 [E1] 和 [E2] 标记包围。数据集提供了四种关系分类:相同、包含、位于和其他(细分为二十种不同的关系)。
需要注意的是,尽管我们保留了超过99%的原始实例,但这并不是对原始 ReRelEM 数据集的完整表示。数据集在将其分为训练、验证和测试集后,从测试集中删除了21个关系类型不在训练集中的实例。此外,还删除了来自原始数据集的7个具有格式错误并无法解析为后处理记录的实例。
数据集中的一个示例数据实例:
{ "docid": "cver", "sentence1": "O PRESIDENTE Sarkozy abriu a Conferência de Dadores realizada em Paris com uma frase grandiloquente sobre a necessidade urgente de criar um Estado palestiniano no fim de 2008 . O Presidente ou é mentiroso ou finge-se ignorante, ou as duas coisas. Depois do falhanço esperado da cimeira de Annapolis , um modo de [E2]Condoleezza Rice[/E2] salvar a face e de a Administração | Administração americana e a Europa continuarem a fingir que estão interessadas em resolver o conflito israelo-palestiniano e de lavarem as mãos de tudo o resto, Sarkozy não pode ignorar que o momento para pronunciamentos débeis é o menos adequado. Tony Blair , depois de ter minado todo o processo de paz do Médio Oriente ao ordenar a invasão do Iraque de braço dado com [E1]Bush[/E1] , continua a emitir piedades deste género, e diz que está na altura de resolver o problema e que ele pode ser resolvido. Blair não sabe o que diz.", "sentence2": "nan", "label": "relacao_profissional", "same_text": true }
train | validation | test | |
---|---|---|---|
Instances | 2226 | 701 | 805 |
数据集的划分方式确保了来自同一文档的句子不会出现在多个拆分中。
@inproceedings{freitas2009relation, title={Relation detection between named entities: report of a shared task}, author={Freitas, Cl{\\'a}udia and Santos, Diana and Mota, Cristina and Oliveira, Hugo Gon{\\c{c}}alo and Carvalho, Paula}, booktitle={Proceedings of the Workshop on Semantic Evaluations: Recent Achievements and Future Directions (SEW-2009)}, pages={129--137}, year={2009} }
感谢 @ruanchaves 添加了这个数据集。