模型:
HooshvareLab/bert-base-parsbert-armanner-uncased
ParsBERT是基于Google的BERT架构的单语言模型,具有与BERT-Base相同的配置。
展示ParsBERT的论文: arXiv:2005.12515
所有模型(下游任务)都是无大小写的,并使用整词遮盖进行训练。 (即将推出,敬请关注)
该任务旨在从文本中提取命名实体,例如名称,并使用适当的NER类别进行标记,例如位置,组织等。用于此任务的数据集包含使用IOB格式标记的句子。在此格式中,不是实体的标记为“O”,“B”标记对应于对象的第一个单词,而“I”标记对应于相同实体的其余词项。“B”和“I”标记后面都跟着一个连字符(或下划线),然后是实体类别。因此,NER任务是一个多类别令牌分类问题,它在输入原始文本后标记令牌。在波斯BERT中,我们准备了ARMAN和PEYMA的ner数据集以及两个数据集的组合。
ARMAN数据集包含7,682句子,其中共标记了250,015个标记,属于六个不同的类别。
Label | # |
---|---|
Organization | 30108 |
Location | 12924 |
Facility | 4458 |
Event | 7557 |
Product | 4389 |
Person | 15645 |
下载 您可以从 here 下载数据集
下表总结了ParsBERT与其他模型和架构相比的F1分数。
Dataset | ParsBERT | MorphoBERT | Beheshti-NER | LSTM-CRF | Rule-Based CRF | BiLSTM-CRF |
---|---|---|---|---|---|---|
ARMAN | 93.10* | 89.9 | 84.03 | 86.55 | - | 77.45 |
Notebook | Description |
---|---|
1233321 | Simple and efficient way to use State-of-the-Art models on downstream tasks through transformers | 1234321
如果您在研究中使用了 ParsBERT ,请在您的出版物中引用以下论文:
@article{ParsBERT, title={ParsBERT: Transformer-based Model for Persian Language Understanding}, author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri}, journal={ArXiv}, year={2020}, volume={abs/2005.12515} }
我们在此向 Tensorflow Research Cloud (TFRC) program 表示感谢,因为他们为我们提供了必要的计算资源。我们还要感谢 Hooshvare 研究小组,因为他们为我们提供了数据集收集和在线文本资源爬取的便利。
这是我们的ParsBERT NER的第一个版本!