模型:
mrm8488/bert-spanish-cased-finetuned-ner
该模型是在西班牙BERT cased (BETO) 版本上进行训练的,用于NER下游任务。
我对数据集进行了预处理,并将其拆分为训练集和验证集(80/20)
Dataset | # Examples |
---|---|
Train | 8.7 K |
Dev | 2.2 K |
B-LOC B-MISC B-ORG B-PER I-LOC I-MISC I-ORG I-PER O
Metric | # score |
---|---|
F1 | 90.17 |
Precision | 89.86 |
Recall | 90.47 |
Model | # F1 score | Size(MB) |
---|---|---|
bert-base-spanish-wwm-cased (BETO) | 88.43 | 421 |
1236321 | 90.17 | 420 |
Best Multilingual BERT | 87.38 | 681 |
1237321 | 70.00 | 55 |
使用管道快速使用:
from transformers import pipeline nlp_ner = pipeline( "ner", model="mrm8488/bert-spanish-cased-finetuned-ner", tokenizer=( 'mrm8488/bert-spanish-cased-finetuned-ner', {"use_fast": False} )) text = 'Mis amigos están pensando viajar a Londres este verano' nlp_ner(text) #Output: [{'entity': 'B-LOC', 'score': 0.9998720288276672, 'word': 'Londres'}]
在西班牙用 ♥ 制作