FastPolDeepNer是一个用于命名实体识别的模型,旨在实现易用性、训练性和配置性。该项目的前身是 PolDeepNer2 。该模型实现了一个由数据处理和训练组成的管道,使用的工具包括:hydra、pytorch、pytorch-lightning和transformers。
源代码: https://gitlab.clarin-pl.eu/grupa-wieszcz/ner/fast-pdn
以下是如何使用此模型来获取文本中的命名实体:
from transformers import pipeline ner = pipeline('ner', model='clarin-pl/FastPDN', aggregation_strategy='simple') text = "Nazywam się Jan Kowalski i mieszkam we Wrocławiu." ner_results = ner(text) for output in ner_results: print(output) {'entity_group': 'nam_liv_person', 'score': 0.9996054, 'word': 'Jan Kowalski', 'start': 12, 'end': 24} {'entity_group': 'nam_loc_gpe_city', 'score': 0.998931, 'word': 'Wrocławiu', 'start': 39, 'end': 48}
以下是如何使用此模型来获取文本中每个标记的logits:
from transformers import AutoTokenizer, AutoModelForTokenClassification tokenizer = AutoTokenizer.from_pretrained("clarin-pl/FastPDN") model = AutoModelForTokenClassification.from_pretrained("clarin-pl/FastPDN") text = "Nazywam się Jan Kowalski i mieszkam we Wrocławiu." encoded_input = tokenizer(text, return_tensors='pt') output = model(**encoded_input)
FastPDN模型是使用kpwr和cen数据集的82类版本进行训练的。标注指南详见 here 。
FastPDN模型经过了微调,感谢预训练模型:
在cen_n82和kpwr_n82上运行的训练结果:
name | test/f1 | test/pdn2_f1 | test/acc | test/precision | test/recall |
---|---|---|---|---|---|
distiluse | 0.53 | 0.61 | 0.95 | 0.55 | 0.54 |
herbert | 0.68 | 0.78 | 0.97 | 0.7 | 0.69 |