ParsBERT（v2.0）

波斯语理解的基于Transformer的模型

我们重新构建了词汇表，并在新的波斯语语料库上对ParsBERT v1.1进行了微调，以便为在其他范围内使用ParsBERT提供一些功能！请关注有关先前和当前模型的最新信息的GitHub存储库。

波斯语命名实体识别[ARMAN，PEYMA]

此任务的目标是从文本中提取命名实体，例如姓名，并使用适当的NER类别（如地点、组织等）进行标记。用于此任务的数据集包含使用IOB格式标记的句子。在此格式中，不属于实体的标记为“O”，“B”标记对应于对象的第一个词，而“I”标记对应于同一实体的其他词。 “B”和“I”标记后面跟着一个连字符（或下划线），后面是实体类别。因此，NER任务是一个多类别标记分类问题，其在输入原始文本时对标记标记标记。波斯语NER使用了两个主要数据集，ARMAN和PEYMA。

PEYMA

PEYMA数据集包括7,145个句子，共计302,530个单词，其中有41,148个单词标记为七种不同类别。

组织

货币

地点

日期

时间

个人

百分比

下载您可以从 here 下载数据集

结果

下表总结了ParsBERT与其他模型和架构相比获得的F1分数。

使用方法 :hugs:

BibTeX条目和引文信息

请在出版物中引用如下：

问题？

在GitHub存储库上发布一个问题。

作者:

Hooshvare Research Lab

数据集大小:

1.82 GB