数据集:

harem

任务:

标记分类

子任务:

named-entity-recognition

语言:

计算机处理:

monolingual

大小:

n<1K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

HAREM 数据集卡片

数据集概述

HAREM 是一个葡萄牙语语料库，常用于命名实体识别任务。它包含约93k个单词，来自129个不同的文本，涵盖多种风格和语言变体。该数据集版本的划分遵循[1]的划分方式，其中7%的HAREM文档为验证集，miniHAREM语料库（约65k个单词）为测试集。数据集有两个版本，一个版本有10个不同的命名实体类别（Person、Organization、Location、Value、Date、Title、Thing、Event、Abstraction和Other），另一个版本是“选择性”版本，只有5个类别（Person、Organization、Location、Value和Date）。

需要注意的是，HAREM数据集的原始版本具有2个命名实体识别细节级别，即“Category”和“Sub-type”。这里处理的数据集版本仅使用原始数据集的“Category”级别。

[1] Souza, Fábio, Rodrigo Nogueira, and Roberto Lotufo. "BERTimbau: Pretrained BERT Models for Brazilian Portuguese." Brazilian Conference on Intelligent Systems. Springer, Cham, 2020.

支持的任务和排行榜

[需要更多信息]

语言

葡萄牙语

数据集结构

数据实例

{
  "id": "HAREM-871-07800",
  "ner_tags": [3, 0, 0, 3, 4, 4, 4, 4, 4, 4, 4, 4,
  ],
  "tokens": [
    "Abraço", "Página", "Principal", "ASSOCIAÇÃO", "DE", "APOIO", "A", "PESSOAS", "COM", "VIH", "/", "SIDA"
  ]
}

数据字段

id ：样本的ID
tokens ：示例文本的标记
ner_tags ：每个标记的NER标签

NER标签对应于以下列表：

"O", "B-PESSOA", "I-PESSOA", "B-ORGANIZACAO", "I-ORGANIZACAO", "B-LOCAL", "I-LOCAL", "B-TEMPO", "I-TEMPO", "B-VALOR", "I-VALOR", "B-ABSTRACCAO", "I-ABSTRACCAO", "B-ACONTECIMENTO", "I-ACONTECIMENTO", "B-COISA", "I-COISA", "B-OBRA", "I-OBRA", "B-OUTRO", "I-OUTRO"

NER标签与CoNLL共享任务中的格式相同：B表示短语的第一个词，I表示非初始词。

数据拆分

数据被拆分为两个版本（默认和选择性）的训练、验证和测试集。拆分的大小如下：

Train	Val	Test
121	8	128

数据集创建

策划原理

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制片人？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{santos2006harem,
  title={Harem: An advanced ner evaluation contest for portuguese},
  author={Santos, Diana and Seco, Nuno and Cardoso, Nuno and Vilela, Rui},
  booktitle={quot; In Nicoletta Calzolari; Khalid Choukri; Aldo Gangemi; Bente Maegaard; Joseph Mariani; Jan Odjik; Daniel Tapias (ed) Proceedings of the 5 th International Conference on Language Resources and Evaluation (LREC'2006)(Genoa Italy 22-28 May 2006)},
  year={2006}
}

贡献者

感谢 @jonatasgrosman 添加了此数据集。

作者:

佚名

数据集大小:

26.4 KB