模型:

dumitrescustefan/bert-base-romanian-ner

英文

bert-base-romanian-ner

更新日期:21.01.2022

模型描述

bert-base-romanian-ner是经过微调的BERT模型,可用于命名实体识别(Named Entity Recognition),在NER任务中取得了最先进的性能。它已经经过训练,可以识别15种类型的实体:人物、地缘政治实体、位置、组织机构、语言、民族宗教政治实体、日期时间、期间、数量、货币、数字、序数、设施、艺术作品和事件。

具体来说,该模型是一个 bert-base-romanian-cased-v1 模型,它经过了 RONEC version 2.0 进行微调,其中包含12330个句子,超过0.5M个标记,共有80,283个不同标注的实体。RONECv2是一个BIO2标注的语料库,这意味着该模型会为实体生成“B-”和“I-”样式的标签。

该模型将按照以下列表生成标签:['O', 'B-PERSON', 'I-PERSON', 'B-ORG', 'I-ORG', 'B-GPE', 'I-GPE', 'B-LOC', 'I-LOC', 'B-NAT_REL_POL', 'I-NAT_REL_POL', 'B-EVENT', 'I-EVENT', 'B-LANGUAGE', 'I-LANGUAGE', 'B-WORK_OF_ART', 'I-WORK_OF_ART', 'B-DATETIME', 'I-DATETIME', 'B-PERIOD', 'I-PERIOD', 'B-MONEY', 'I-MONEY', 'B-QUANTITY', 'I-QUANTITY', 'B-NUMERIC', 'I-NUMERIC', 'B-ORDINAL', 'I-ORDINAL', 'B-FACILITY', 'I-FACILITY']。标签'O'表示其他。

使用方法

有两种使用该模型的方法:

1. 在Transformers中直接使用:您可以使用Transformers的NER流水线(pipeline)使用该模型;您需要处理多个子标记的单词标记化情况,具有不同的标签。

2. 在Python包中使用:pip install roner

简单易用,处理好了单词标记对齐、长序列等问题。详细信息请参见 https://github.com/dumitrescustefan/roner

不要忘记!在处理文本之前,请始终对文本进行清理!在使用这些模型之前,将"c"和"ț"转换为逗号形式。

NER评估结果

 'test/ent_type': 0.9276865720748901,
 'test/exact': 0.9118986129760742,
 'test/partial': 0.9356381297111511,
 'test/strict': 0.8921924233436584

语料库详细信息

该语料库在训练/验证/测试集中具有以下类别和分布:

Total Train Valid Test
Classes # # % # % # %
PERSON 26130 19167 73.35 2733 10.46 4230 16.19
GPE 11103 8193 73.79 1182 10.65 1728 15.56
LOC 2467 1824 73.94 270 10.94 373 15.12
ORG 7880 5688 72.18 880 11.17 1312 16.65
LANGUAGE 467 342 73.23 52 11.13 73 15.63
NAT_REL_POL 4970 3673 73.90 516 10.38 781 15.71
DATETIME 9614 6960 72.39 1029 10.7 1625 16.9
PERIOD 1188 862 72.56 129 10.86 197 16.58
QUANTITY 1588 1161 73.11 181 11.4 246 15.49
MONEY 1424 1041 73.10 159 11.17 224 15.73
NUMERIC 7735 5734 74.13 814 10.52 1187 15.35
ORDINAL 1893 1377 72.74 212 11.2 304 16.06
FACILITY 1126 840 74.6 113 10.04 173 15.36
WORK_OF_ART 1596 1157 72.49 176 11.03 263 16.48
EVENT 1102 826 74.95 107 9.71 169 15.34

BibTeX引用和引用信息

请考虑引用以下文献作为对RONEC作者的感谢,即使该文献描述的是v1的语料库,而您使用的是基于v2训练的模型:

或者以.bibtex格式: