模型:

HooshvareLab/bert-base-parsbert-ner-uncased

英文

ParsBERT:基于Transformer的波斯语语言理解模型

ParsBERT是基于Google的BERT架构的单语言模型,具有与BERT-Base相同的配置。

ParsBERT提供的论文: arXiv:2005.12515

所有模型(下游任务)都是不区分大小写的,并使用整个单词屏蔽进行训练(即将推出,敬请期待)

波斯语命名实体识别[ARMAN,PEYMA,ARMAN+PEYMA]

此任务旨在提取文本中的命名实体,例如名称,并用适当的NER类别进行标记,例如地点,组织等。用于此任务的数据集包含用IOB格式标记的句子。在此格式中,不是实体的标记为“O”,“B”标记表示对象的第一个词,“I”标记表示同一实体的其余术语。 “B”和“I”标记后跟连字符(或下划线),后跟实体类别。因此,NER任务是一个多类别标记分类问题,可在输入原始文本后标记标记。波斯语NER使用了两个主要数据集,ARMAN和PEYMA。在ParsBERT中,我们为这两个数据集以及两个数据集的组合准备了ner。

PEYMA

PEYMA数据集包括7,145个句子,共302,530个标记,其中41,148个标记为七个不同的类别。

  • 组织
  • 货币
  • 地点
  • 日期
  • 时间
  • 人物
  • 百分比
  • Label #
    Organization 16964
    Money 2037
    Location 8782
    Date 4259
    Time 732
    Person 7675
    Percent 699

    下载 可以从 here 下载数据集

    ARMAN

    ARMAN数据集包含7,682个句子,250,015个句子中的标记属于六个不同的类别。

  • 组织
  • 地点
  • 设施
  • 事件
  • 产品
  • 人物
  • Label #
    Organization 30108
    Location 12924
    Facility 4458
    Event 7557
    Product 4389
    Person 15645

    下载 可以从 here 下载数据集

    结果

    下表总结了ParsBERT与其他模型和架构相比获得的F1分数。

    Dataset ParsBERT MorphoBERT Beheshti-NER LSTM-CRF Rule-Based CRF BiLSTM-CRF
    ARMAN + PEYMA 95.13* - - - - -
    PEYMA 98.79* - 90.59 - 84.00 -
    ARMAN 93.10* 89.9 84.03 86.55 - 77.45

    如何使用 :hugs:

    1235321
    Notebook Description
    1234321 Simple and efficient way to use State-of-the-Art models on downstream tasks through transformers

    引用

    如果您在研究中使用 ParsBERT ,请在您的出版物中引用以下论文:

    @article{ParsBERT,
        title={ParsBERT: Transformer-based Model for Persian Language Understanding},
        author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
        journal={ArXiv},
        year={2020},
        volume={abs/2005.12515}
    }
    

    致谢

    我们在此向 Tensorflow Research Cloud (TFRC) program 提供我们所需的计算资源表示感谢。我们还感谢 Hooshvare 研究小组为我们提供数据集收集和在线资源抓取的便利。

    贡献者

    发布版本

    v0.1发布(2019年5月29日)

    这是我们ParsBERT NER的第一个版本!