模型:
m3hrdadfi/albert-fa-base-v2-clf-persiannews
一个用于波斯语自监督学习的轻量级BERT模型,用于学习波斯语的语言表示。
你可以称之为小型BERT。
ALBERT-Persian 是针对波斯语的ALBERT的首次尝试。该模型是基于Google的ALBERT BASE 2.0版本进行训练的,使用了来自各个主题(如科学、小说、新闻等)的各种书写风格的文档,包括3.9M个文件、73M个句子和13亿个词,就像我们为ParsBERT做的那样。
有关先前和当前模型的最新信息,请关注 ALBERT-Persian 存储库。
该任务的目标是以监督方式标记文本,同时使用现有数据集DigiMag和波斯新闻。
这是一个从不同在线新闻机构的网站上获取的各种新闻文章数据集。总共有16,438篇文章,涵盖了八个不同的类别。
你可以从 here 下载数据集。
以下表格总结了与其他模型和架构相比获得的F1分数。
Dataset | ALBERT-fa-base-v2 | ParsBERT-v1 | mBERT |
---|---|---|---|
Persian News | 97.01 | 97.19 | 95.79 |
请在文献中引用如下:
@misc{ALBERTPersian, author = {Mehrdad Farahani}, title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language}, year = {2020}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}}, } @article{ParsBERT, title={ParsBERT: Transformer-based Model for Persian Language Understanding}, author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri}, journal={ArXiv}, year={2020}, volume={abs/2005.12515} }
在 ALBERT-Persian 存储库上发布一个Github问题。