模型:

m3hrdadfi/albert-fa-base-v2

任务:

填充掩码

类库:

PyTorch Transformers

语言:

其他:

albert albert-persian persian-lm AutoTrain Compatible

许可:

apache-2.0

模型介绍文件清单

英文

ALBERT-Persian

一个用于波斯语的自监督学习语言表示的轻量BERT

可以将其称为小贝尔特

介绍

ALBERT-Persian在大量公共语料库（ Persian Wikidumps ， MirasText ）和其他六个手动获取的文本数据进行了训练，这些数据来自各种类型的网站（ BigBang Page 科学， Chetor 生活方式， Eligasht 行程， Digikala 数字杂志， Ted Talks 一般对话，图书小说，故事书，从古到现代的短篇小说等）

请关注 ALBERT-Persian 存储库以获取有关以前和当前模型的最新信息。

预期用途和限制

您可以使用原始模型进行掩码语言建模或下一个句子预测，但它的主要目的是在下游任务上进行微调。请参阅 model hub ，寻找您感兴趣的任务上进行微调的版本。

如何使用

要使用任何类型的Albert，您必须安装sentencepiece
在您的笔记本中运行此命令！pip install -q sentencepiece

TensorFlow 2.0

from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = TFAutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد می‌توانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

>>> ['▁ما', '▁در', '▁هوش', 'واره', '▁معتقد', 'یم', '▁با', '▁انتقال', '▁صحیح', '▁دانش', '▁و', '▁اگاه', 'ی', '،', '▁همه', '▁افراد', '▁می', '▁توانند', '▁از', '▁ابزارهای', '▁هوشمند', '▁استفاده', '▁کنند', '.', '▁شعار', '▁ما', '▁هوش', '▁مصنوعی', '▁برای', '▁همه', '▁است', '.']

Pytorch

from transformers import AutoConfig, AutoTokenizer, AutoModel

config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = AutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")

训练

ALBERT-Persian是波斯语ALBERT的首次尝试。该模型是基于Google的ALBERT BASE版本2.0训练的，使用了多种写作风格，包括多个主题（例如科学，小说，新闻），共有超过3.9M个文件，73M个句子和1.3B个单词，就像我们在 ParsBERT 中所做的那样。

目标

训练过程中的目标如下（140K步之后）。

***** Eval results *****
global_step = 140000
loss = 2.0080082
masked_lm_accuracy = 0.6141017
masked_lm_loss = 1.9963315
sentence_order_accuracy = 0.985
sentence_order_loss = 0.06908702

派生模型

基本配置

Albert模型

m3hrdadfi/albert-face-base-v2

Albert情感分析

Albert文本分类

Albert命名实体识别

评估结果

以下表格总结了与其他模型和架构相比，ALBERT-Persian获得的F1得分。

情感分析（SA）任务

Dataset	ALBERT-fa-base-v2	ParsBERT-v1	mBERT	DeepSentiPers
Digikala User Comments	81.12	81.74	80.74	-
SnappFood User Comments	85.79	88.12	87.87	-
SentiPers (Multi Class)	66.12	71.11	-	69.33
SentiPers (Binary Class)	91.09	92.13	-	91.98

文本分类（TC）任务

Dataset	ALBERT-fa-base-v2	ParsBERT-v1	mBERT
Digikala Magazine	92.33	93.59	90.72
Persian News	97.01	97.19	95.79

命名实体识别（NER）任务

Dataset	ALBERT-fa-base-v2	ParsBERT-v1	mBERT	MorphoBERT	Beheshti-NER	LSTM-CRF	Rule-Based CRF	BiLSTM-CRF
PEYMA	88.99	93.10	86.64	-	90.59	-	84.00	-
ARMAN	97.43	98.79	95.89	89.9	84.03	86.55	-	77.45

BibTeX条目和引用信息

请按照以下方式在出版物中引用：

@misc{ALBERT-Persian,
  author = {Mehrdad Farahani},
  title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}

有问题吗？

在 ALBERT-Persian 存储库上发布Github问题。

作者:

Mehrdad Farahani

数据集大小:

73.11 MB