模型:

HooshvareLab/bert-base-parsbert-armanner-uncased

英文

ParsBERT: 基于Transformer的波斯语理解模型

ParsBERT是基于Google的BERT架构的单语言模型,具有与BERT-Base相同的配置。

展示ParsBERT的论文: arXiv:2005.12515

所有模型(下游任务)都是无大小写的,并使用整词遮盖进行训练。 (即将推出,敬请关注)

波斯语NER [ARMAN,PEYMA,ARMAN + PEYMA]

该任务旨在从文本中提取命名实体,例如名称,并使用适当的NER类别进行标记,例如位置,组织等。用于此任务的数据集包含使用IOB格式标记的句子。在此格式中,不是实体的标记为“O”,“B”标记对应于对象的第一个单词,而“I”标记对应于相同实体的其余词项。“B”和“I”标记后面都跟着一个连字符(或下划线),然后是实体类别。因此,NER任务是一个多类别令牌分类问题,它在输入原始文本后标记令牌。在波斯BERT中,我们准备了ARMAN和PEYMA的ner数据集以及两个数据集的组合。

ARMAN

ARMAN数据集包含7,682句子,其中共标记了250,015个标记,属于六个不同的类别。

  • 组织
  • 位置
  • 设施
  • 事件
  • 产品
  • 个人
  • Label #
    Organization 30108
    Location 12924
    Facility 4458
    Event 7557
    Product 4389
    Person 15645

    下载 您可以从 here 下载数据集

    结果

    下表总结了ParsBERT与其他模型和架构相比的F1分数。

    Dataset ParsBERT MorphoBERT Beheshti-NER LSTM-CRF Rule-Based CRF BiLSTM-CRF
    ARMAN 93.10* 89.9 84.03 86.55 - 77.45

    如何使用:hugs:

    1234321
    Notebook Description
    1233321 Simple and efficient way to use State-of-the-Art models on downstream tasks through transformers

    引用

    如果您在研究中使用了 ParsBERT ,请在您的出版物中引用以下论文:

    @article{ParsBERT,
        title={ParsBERT: Transformer-based Model for Persian Language Understanding},
        author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
        journal={ArXiv},
        year={2020},
        volume={abs/2005.12515}
    }
    

    致谢

    我们在此向 Tensorflow Research Cloud (TFRC) program 表示感谢,因为他们为我们提供了必要的计算资源。我们还要感谢 Hooshvare 研究小组,因为他们为我们提供了数据集收集和在线文本资源爬取的便利。

    贡献者

    版本发布

    v0.1版本(2019年5月29日)

    这是我们的ParsBERT NER的第一个版本!