模型:
HooshvareLab/bert-fa-base-uncased-ner-peyma
波斯语理解的基于Transformer的模型
我们重新构建了词汇表,并在新的波斯语语料库上对ParsBERT v1.1进行了微调,以便为在其他范围内使用ParsBERT提供一些功能!请关注有关先前和当前模型的最新信息的GitHub存储库。
此任务的目标是从文本中提取命名实体,例如姓名,并使用适当的NER类别(如地点、组织等)进行标记。用于此任务的数据集包含使用IOB格式标记的句子。在此格式中,不属于实体的标记为“O”,“B”标记对应于对象的第一个词,而“I”标记对应于同一实体的其他词。 “B”和“I”标记后面跟着一个连字符(或下划线),后面是实体类别。因此,NER任务是一个多类别标记分类问题,其在输入原始文本时对标记标记标记。 波斯语NER使用了两个主要数据集,ARMAN和PEYMA。
PEYMA数据集包括7,145个句子,共计302,530个单词,其中有41,148个单词标记为七种不同类别。
下载 您可以从 here 下载数据集
下表总结了ParsBERT与其他模型和架构相比获得的F1分数。
请在出版物中引用如下:
在GitHub存储库上发布一个问题。