模型:
HooshvareLab/bert-base-parsbert-ner-uncased
ParsBERT是基于Google的BERT架构的单语言模型,具有与BERT-Base相同的配置。
ParsBERT提供的论文: arXiv:2005.12515
所有模型(下游任务)都是不区分大小写的,并使用整个单词屏蔽进行训练(即将推出,敬请期待)
此任务旨在提取文本中的命名实体,例如名称,并用适当的NER类别进行标记,例如地点,组织等。用于此任务的数据集包含用IOB格式标记的句子。在此格式中,不是实体的标记为“O”,“B”标记表示对象的第一个词,“I”标记表示同一实体的其余术语。 “B”和“I”标记后跟连字符(或下划线),后跟实体类别。因此,NER任务是一个多类别标记分类问题,可在输入原始文本后标记标记。波斯语NER使用了两个主要数据集,ARMAN和PEYMA。在ParsBERT中,我们为这两个数据集以及两个数据集的组合准备了ner。
PEYMA数据集包括7,145个句子,共302,530个标记,其中41,148个标记为七个不同的类别。
Label | # |
---|---|
Organization | 16964 |
Money | 2037 |
Location | 8782 |
Date | 4259 |
Time | 732 |
Person | 7675 |
Percent | 699 |
下载 可以从 here 下载数据集
ARMAN数据集包含7,682个句子,250,015个句子中的标记属于六个不同的类别。
Label | # |
---|---|
Organization | 30108 |
Location | 12924 |
Facility | 4458 |
Event | 7557 |
Product | 4389 |
Person | 15645 |
下载 可以从 here 下载数据集
下表总结了ParsBERT与其他模型和架构相比获得的F1分数。
Dataset | ParsBERT | MorphoBERT | Beheshti-NER | LSTM-CRF | Rule-Based CRF | BiLSTM-CRF |
---|---|---|---|---|---|---|
ARMAN + PEYMA | 95.13* | - | - | - | - | - |
PEYMA | 98.79* | - | 90.59 | - | 84.00 | - |
ARMAN | 93.10* | 89.9 | 84.03 | 86.55 | - | 77.45 |
Notebook | Description |
---|---|
1234321 | Simple and efficient way to use State-of-the-Art models on downstream tasks through transformers | 1235321
如果您在研究中使用 ParsBERT ,请在您的出版物中引用以下论文:
@article{ParsBERT, title={ParsBERT: Transformer-based Model for Persian Language Understanding}, author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri}, journal={ArXiv}, year={2020}, volume={abs/2005.12515} }
我们在此向 Tensorflow Research Cloud (TFRC) program 提供我们所需的计算资源表示感谢。我们还感谢 Hooshvare 研究小组为我们提供数据集收集和在线资源抓取的便利。
这是我们ParsBERT NER的第一个版本!