模型:
dumitrescustefan/bert-base-romanian-ner
更新日期:21.01.2022
bert-base-romanian-ner是经过微调的BERT模型,可用于命名实体识别(Named Entity Recognition),在NER任务中取得了最先进的性能。它已经经过训练,可以识别15种类型的实体:人物、地缘政治实体、位置、组织机构、语言、民族宗教政治实体、日期时间、期间、数量、货币、数字、序数、设施、艺术作品和事件。
具体来说,该模型是一个 bert-base-romanian-cased-v1 模型,它经过了 RONEC version 2.0 进行微调,其中包含12330个句子,超过0.5M个标记,共有80,283个不同标注的实体。RONECv2是一个BIO2标注的语料库,这意味着该模型会为实体生成“B-”和“I-”样式的标签。
该模型将按照以下列表生成标签:['O', 'B-PERSON', 'I-PERSON', 'B-ORG', 'I-ORG', 'B-GPE', 'I-GPE', 'B-LOC', 'I-LOC', 'B-NAT_REL_POL', 'I-NAT_REL_POL', 'B-EVENT', 'I-EVENT', 'B-LANGUAGE', 'I-LANGUAGE', 'B-WORK_OF_ART', 'I-WORK_OF_ART', 'B-DATETIME', 'I-DATETIME', 'B-PERIOD', 'I-PERIOD', 'B-MONEY', 'I-MONEY', 'B-QUANTITY', 'I-QUANTITY', 'B-NUMERIC', 'I-NUMERIC', 'B-ORDINAL', 'I-ORDINAL', 'B-FACILITY', 'I-FACILITY']。标签'O'表示其他。
有两种使用该模型的方法:
1. 在Transformers中直接使用:您可以使用Transformers的NER流水线(pipeline)使用该模型;您需要处理多个子标记的单词标记化情况,具有不同的标签。
2. 在Python包中使用:pip install roner
简单易用,处理好了单词标记对齐、长序列等问题。详细信息请参见 https://github.com/dumitrescustefan/roner 。
不要忘记!在处理文本之前,请始终对文本进行清理!在使用这些模型之前,将"c"和"ț"转换为逗号形式。
'test/ent_type': 0.9276865720748901, 'test/exact': 0.9118986129760742, 'test/partial': 0.9356381297111511, 'test/strict': 0.8921924233436584
该语料库在训练/验证/测试集中具有以下类别和分布:
Total | Train | Valid | Test | ||||
---|---|---|---|---|---|---|---|
Classes | # | # | % | # | % | # | % |
PERSON | 26130 | 19167 | 73.35 | 2733 | 10.46 | 4230 | 16.19 |
GPE | 11103 | 8193 | 73.79 | 1182 | 10.65 | 1728 | 15.56 |
LOC | 2467 | 1824 | 73.94 | 270 | 10.94 | 373 | 15.12 |
ORG | 7880 | 5688 | 72.18 | 880 | 11.17 | 1312 | 16.65 |
LANGUAGE | 467 | 342 | 73.23 | 52 | 11.13 | 73 | 15.63 |
NAT_REL_POL | 4970 | 3673 | 73.90 | 516 | 10.38 | 781 | 15.71 |
DATETIME | 9614 | 6960 | 72.39 | 1029 | 10.7 | 1625 | 16.9 |
PERIOD | 1188 | 862 | 72.56 | 129 | 10.86 | 197 | 16.58 |
QUANTITY | 1588 | 1161 | 73.11 | 181 | 11.4 | 246 | 15.49 |
MONEY | 1424 | 1041 | 73.10 | 159 | 11.17 | 224 | 15.73 |
NUMERIC | 7735 | 5734 | 74.13 | 814 | 10.52 | 1187 | 15.35 |
ORDINAL | 1893 | 1377 | 72.74 | 212 | 11.2 | 304 | 16.06 |
FACILITY | 1126 | 840 | 74.6 | 113 | 10.04 | 173 | 15.36 |
WORK_OF_ART | 1596 | 1157 | 72.49 | 176 | 11.03 | 263 | 16.48 |
EVENT | 1102 | 826 | 74.95 | 107 | 9.71 | 169 | 15.34 |
请考虑引用以下文献作为对RONEC作者的感谢,即使该文献描述的是v1的语料库,而您使用的是基于v2训练的模型:
或者以.bibtex格式: