模型:

marcosgg/bert-large-pt-ner-enamex

英文

葡萄牙语命名实体识别(NER)模型

这是一个用于葡萄牙语的NER模型,使用标准的'enamex'类别:LOC(地理位置);PER(人物);ORG(组织);MISC(其他实体)。

该模型基于 BERTimbau Large 进行了微调,使用了一些现有的语料库进行训练(详见[1])。

还有一个使用 BERTimbau Base 进行训练的备选模型: bert-base-pt-ner-enamex

在训练过程中,批处理大小为32,学习率为3e-5,训练了3个周期。在测试集上取得了以下结果(精确度/召回率/F1值):0.919/0.925/0.922。

[1] Pablo Gamallo, Marcos Garcia & Patricia Martín-Rodilla, 2019. NER and open information extraction for Portuguese notebook for IberLEF 2019 Portuguese named entity recognition and relation extraction tasks . In Proceedings of the Iberian Languages Evaluation Forum (IberLEF 2019)co-located with 35th Conference of the Spanish Society for Natural Language Processing (SEPLN 2019): 457-467.