数据集:
harem
任务:
标记分类语言:
pt计算机处理:
monolingual大小:
n<1K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
license:unknownHAREM 是一个葡萄牙语语料库,常用于命名实体识别任务。它包含约93k个单词,来自129个不同的文本,涵盖多种风格和语言变体。该数据集版本的划分遵循[1]的划分方式,其中7%的HAREM文档为验证集,miniHAREM语料库(约65k个单词)为测试集。数据集有两个版本,一个版本有10个不同的命名实体类别(Person、Organization、Location、Value、Date、Title、Thing、Event、Abstraction和Other),另一个版本是“选择性”版本,只有5个类别(Person、Organization、Location、Value和Date)。
需要注意的是,HAREM数据集的原始版本具有2个命名实体识别细节级别,即“Category”和“Sub-type”。这里处理的数据集版本仅使用原始数据集的“Category”级别。
[1] Souza, Fábio, Rodrigo Nogueira, and Roberto Lotufo. "BERTimbau: Pretrained BERT Models for Brazilian Portuguese." Brazilian Conference on Intelligent Systems. Springer, Cham, 2020.
[需要更多信息]
葡萄牙语
{ "id": "HAREM-871-07800", "ner_tags": [3, 0, 0, 3, 4, 4, 4, 4, 4, 4, 4, 4, ], "tokens": [ "Abraço", "Página", "Principal", "ASSOCIAÇÃO", "DE", "APOIO", "A", "PESSOAS", "COM", "VIH", "/", "SIDA" ] }
NER标签对应于以下列表:
"O", "B-PESSOA", "I-PESSOA", "B-ORGANIZACAO", "I-ORGANIZACAO", "B-LOCAL", "I-LOCAL", "B-TEMPO", "I-TEMPO", "B-VALOR", "I-VALOR", "B-ABSTRACCAO", "I-ABSTRACCAO", "B-ACONTECIMENTO", "I-ACONTECIMENTO", "B-COISA", "I-COISA", "B-OBRA", "I-OBRA", "B-OUTRO", "I-OUTRO"
NER标签与CoNLL共享任务中的格式相同:B表示短语的第一个词,I表示非初始词。
数据被拆分为两个版本(默认和选择性)的训练、验证和测试集。拆分的大小如下:
Train | Val | Test |
---|---|---|
121 | 8 | 128 |
[需要更多信息]
[需要更多信息]
谁是源语言的制片人?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
@inproceedings{santos2006harem, title={Harem: An advanced ner evaluation contest for portuguese}, author={Santos, Diana and Seco, Nuno and Cardoso, Nuno and Vilela, Rui}, booktitle={quot; In Nicoletta Calzolari; Khalid Choukri; Aldo Gangemi; Bente Maegaard; Joseph Mariani; Jan Odjik; Daniel Tapias (ed) Proceedings of the 5 th International Conference on Language Resources and Evaluation (LREC'2006)(Genoa Italy 22-28 May 2006)}, year={2006} }
感谢 @jonatasgrosman 添加了此数据集。