ALBERT波斯语

一个用于波斯语自监督学习的轻量级BERT模型，用于学习波斯语的语言表示。

你可以称之为小型BERT。

ALBERT-Persian 是针对波斯语的ALBERT的首次尝试。该模型是基于Google的ALBERT BASE 2.0版本进行训练的，使用了来自各个主题（如科学、小说、新闻等）的各种书写风格的文档，包括3.9M个文件、73M个句子和13亿个词，就像我们为ParsBERT做的那样。

有关先前和当前模型的最新信息，请关注 ALBERT-Persian 存储库。

波斯语文本分类[DigiMag，波斯新闻]

该任务的目标是以监督方式标记文本，同时使用现有数据集DigiMag和波斯新闻。

波斯新闻

这是一个从不同在线新闻机构的网站上获取的各种新闻文章数据集。总共有16,438篇文章，涵盖了八个不同的类别。

经济

国际

政治

科技

文化艺术

体育

医疗

你可以从 here 下载数据集。

结果

以下表格总结了与其他模型和架构相比获得的F1分数。

Dataset	ALBERT-fa-base-v2	ParsBERT-v1	mBERT
Persian News	97.01	97.19	95.79

BibTeX条目和引文信息

请在文献中引用如下：

@misc{ALBERTPersian,
  author = {Mehrdad Farahani},
  title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
  year = {2020},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}

有问题吗？

在 ALBERT-Persian 存储库上发布一个Github问题。

作者:

Mehrdad Farahani

数据集大小:

147.28 MB