英文

ALBERT-Persian

一个用于波斯语的自监督学习语言表示的轻量BERT

可以将其称为小贝尔特

介绍

ALBERT-Persian在大量公共语料库( Persian Wikidumps MirasText )和其他六个手动获取的文本数据进行了训练,这些数据来自各种类型的网站( BigBang Page 科学, Chetor 生活方式, Eligasht 行程, Digikala 数字杂志, Ted Talks 一般对话,图书小说,故事书,从古到现代的短篇小说等)

请关注 ALBERT-Persian 存储库以获取有关以前和当前模型的最新信息。

预期用途和限制

您可以使用原始模型进行掩码语言建模或下一个句子预测,但它的主要目的是在下游任务上进行微调。请参阅 model hub ,寻找您感兴趣的任务上进行微调的版本。

如何使用

  • 要使用任何类型的Albert,您必须安装sentencepiece
  • 在您的笔记本中运行此命令 !pip install -q sentencepiece
TensorFlow 2.0
from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = TFAutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد می‌توانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

>>> ['▁ما', '▁در', '▁هوش', 'واره', '▁معتقد', 'یم', '▁با', '▁انتقال', '▁صحیح', '▁دانش', '▁و', '▁اگاه', 'ی', '،', '▁همه', '▁افراد', '▁می', '▁توانند', '▁از', '▁ابزارهای', '▁هوشمند', '▁استفاده', '▁کنند', '.', '▁شعار', '▁ما', '▁هوش', '▁مصنوعی', '▁برای', '▁همه', '▁است', '.']
Pytorch
from transformers import AutoConfig, AutoTokenizer, AutoModel

config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = AutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")

训练

ALBERT-Persian是波斯语ALBERT的首次尝试。该模型是基于Google的ALBERT BASE版本2.0训练的,使用了多种写作风格,包括多个主题(例如科学,小说,新闻),共有超过3.9M个文件,73M个句子和1.3B个单词,就像我们在 ParsBERT 中所做的那样。

目标

训练过程中的目标如下(140K步之后)。

***** Eval results *****
global_step = 140000
loss = 2.0080082
masked_lm_accuracy = 0.6141017
masked_lm_loss = 1.9963315
sentence_order_accuracy = 0.985
sentence_order_loss = 0.06908702

派生模型

基本配置

Albert模型 Albert情感分析 Albert文本分类 Albert命名实体识别

评估结果

以下表格总结了与其他模型和架构相比,ALBERT-Persian获得的F1得分。

情感分析(SA)任务

Dataset ALBERT-fa-base-v2 ParsBERT-v1 mBERT DeepSentiPers
Digikala User Comments 81.12 81.74 80.74 -
SnappFood User Comments 85.79 88.12 87.87 -
SentiPers (Multi Class) 66.12 71.11 - 69.33
SentiPers (Binary Class) 91.09 92.13 - 91.98

文本分类(TC)任务

Dataset ALBERT-fa-base-v2 ParsBERT-v1 mBERT
Digikala Magazine 92.33 93.59 90.72
Persian News 97.01 97.19 95.79

命名实体识别(NER)任务

Dataset ALBERT-fa-base-v2 ParsBERT-v1 mBERT MorphoBERT Beheshti-NER LSTM-CRF Rule-Based CRF BiLSTM-CRF
PEYMA 88.99 93.10 86.64 - 90.59 - 84.00 -
ARMAN 97.43 98.79 95.89 89.9 84.03 86.55 - 77.45

BibTeX条目和引用信息

请按照以下方式在出版物中引用:

@misc{ALBERT-Persian,
  author = {Mehrdad Farahani},
  title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}

有问题吗?

ALBERT-Persian 存储库上发布Github问题。