模型:
m3hrdadfi/albert-fa-base-v2
一个用于波斯语的自监督学习语言表示的轻量BERT
可以将其称为小贝尔特
ALBERT-Persian在大量公共语料库( Persian Wikidumps , MirasText )和其他六个手动获取的文本数据进行了训练,这些数据来自各种类型的网站( BigBang Page 科学, Chetor 生活方式, Eligasht 行程, Digikala 数字杂志, Ted Talks 一般对话,图书小说,故事书,从古到现代的短篇小说等)
请关注 ALBERT-Persian 存储库以获取有关以前和当前模型的最新信息。
您可以使用原始模型进行掩码语言建模或下一个句子预测,但它的主要目的是在下游任务上进行微调。请参阅 model hub ,寻找您感兴趣的任务上进行微调的版本。
from transformers import AutoConfig, AutoTokenizer, TFAutoModel config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2") tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2") model = TFAutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2") text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است." tokenizer.tokenize(text) >>> ['▁ما', '▁در', '▁هوش', 'واره', '▁معتقد', 'یم', '▁با', '▁انتقال', '▁صحیح', '▁دانش', '▁و', '▁اگاه', 'ی', '،', '▁همه', '▁افراد', '▁می', '▁توانند', '▁از', '▁ابزارهای', '▁هوشمند', '▁استفاده', '▁کنند', '.', '▁شعار', '▁ما', '▁هوش', '▁مصنوعی', '▁برای', '▁همه', '▁است', '.']Pytorch
from transformers import AutoConfig, AutoTokenizer, AutoModel config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2") tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2") model = AutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")
ALBERT-Persian是波斯语ALBERT的首次尝试。该模型是基于Google的ALBERT BASE版本2.0训练的,使用了多种写作风格,包括多个主题(例如科学,小说,新闻),共有超过3.9M个文件,73M个句子和1.3B个单词,就像我们在 ParsBERT 中所做的那样。
训练过程中的目标如下(140K步之后)。
***** Eval results ***** global_step = 140000 loss = 2.0080082 masked_lm_accuracy = 0.6141017 masked_lm_loss = 1.9963315 sentence_order_accuracy = 0.985 sentence_order_loss = 0.06908702
以下表格总结了与其他模型和架构相比,ALBERT-Persian获得的F1得分。
Dataset | ALBERT-fa-base-v2 | ParsBERT-v1 | mBERT | DeepSentiPers |
---|---|---|---|---|
Digikala User Comments | 81.12 | 81.74 | 80.74 | - |
SnappFood User Comments | 85.79 | 88.12 | 87.87 | - |
SentiPers (Multi Class) | 66.12 | 71.11 | - | 69.33 |
SentiPers (Binary Class) | 91.09 | 92.13 | - | 91.98 |
Dataset | ALBERT-fa-base-v2 | ParsBERT-v1 | mBERT |
---|---|---|---|
Digikala Magazine | 92.33 | 93.59 | 90.72 |
Persian News | 97.01 | 97.19 | 95.79 |
Dataset | ALBERT-fa-base-v2 | ParsBERT-v1 | mBERT | MorphoBERT | Beheshti-NER | LSTM-CRF | Rule-Based CRF | BiLSTM-CRF |
---|---|---|---|---|---|---|---|---|
PEYMA | 88.99 | 93.10 | 86.64 | - | 90.59 | - | 84.00 | - |
ARMAN | 97.43 | 98.79 | 95.89 | 89.9 | 84.03 | 86.55 | - | 77.45 |
请按照以下方式在出版物中引用:
@misc{ALBERT-Persian, author = {Mehrdad Farahani}, title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language}, year = {2020}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}}, } @article{ParsBERT, title={ParsBERT: Transformer-based Model for Persian Language Understanding}, author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri}, journal={ArXiv}, year={2020}, volume={abs/2005.12515} }
在 ALBERT-Persian 存储库上发布Github问题。