数据集:

harem

语言:

pt

计算机处理:

monolingual

大小:

n<1K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

original
英文

HAREM 数据集卡片

数据集概述

HAREM 是一个葡萄牙语语料库,常用于命名实体识别任务。它包含约93k个单词,来自129个不同的文本,涵盖多种风格和语言变体。该数据集版本的划分遵循[1]的划分方式,其中7%的HAREM文档为验证集,miniHAREM语料库(约65k个单词)为测试集。数据集有两个版本,一个版本有10个不同的命名实体类别(Person、Organization、Location、Value、Date、Title、Thing、Event、Abstraction和Other),另一个版本是“选择性”版本,只有5个类别(Person、Organization、Location、Value和Date)。

需要注意的是,HAREM数据集的原始版本具有2个命名实体识别细节级别,即“Category”和“Sub-type”。这里处理的数据集版本仅使用原始数据集的“Category”级别。

[1] Souza, Fábio, Rodrigo Nogueira, and Roberto Lotufo. "BERTimbau: Pretrained BERT Models for Brazilian Portuguese." Brazilian Conference on Intelligent Systems. Springer, Cham, 2020.

支持的任务和排行榜

[需要更多信息]

语言

葡萄牙语

数据集结构

数据实例

{
  "id": "HAREM-871-07800",
  "ner_tags": [3, 0, 0, 3, 4, 4, 4, 4, 4, 4, 4, 4,
  ],
  "tokens": [
    "Abraço", "Página", "Principal", "ASSOCIAÇÃO", "DE", "APOIO", "A", "PESSOAS", "COM", "VIH", "/", "SIDA"
  ]
}

数据字段

  • id :样本的ID
  • tokens :示例文本的标记
  • ner_tags :每个标记的NER标签

NER标签对应于以下列表:

"O", "B-PESSOA", "I-PESSOA", "B-ORGANIZACAO", "I-ORGANIZACAO", "B-LOCAL", "I-LOCAL", "B-TEMPO", "I-TEMPO", "B-VALOR", "I-VALOR", "B-ABSTRACCAO", "I-ABSTRACCAO", "B-ACONTECIMENTO", "I-ACONTECIMENTO", "B-COISA", "I-COISA", "B-OBRA", "I-OBRA", "B-OUTRO", "I-OUTRO"

NER标签与CoNLL共享任务中的格式相同:B表示短语的第一个词,I表示非初始词。

数据拆分

数据被拆分为两个版本(默认和选择性)的训练、验证和测试集。拆分的大小如下:

Train Val Test
121 8 128

数据集创建

策划原理

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的制片人?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{santos2006harem,
  title={Harem: An advanced ner evaluation contest for portuguese},
  author={Santos, Diana and Seco, Nuno and Cardoso, Nuno and Vilela, Rui},
  booktitle={quot; In Nicoletta Calzolari; Khalid Choukri; Aldo Gangemi; Bente Maegaard; Joseph Mariani; Jan Odjik; Daniel Tapias (ed) Proceedings of the 5 th International Conference on Language Resources and Evaluation (LREC'2006)(Genoa Italy 22-28 May 2006)},
  year={2006}
}

贡献者

感谢 @jonatasgrosman 添加了此数据集。