模型:

m3hrdadfi/albert-fa-base-v2-clf-persiannews

英文

ALBERT波斯语

一个用于波斯语自监督学习的轻量级BERT模型,用于学习波斯语的语言表示。

你可以称之为小型BERT。

ALBERT-Persian 是针对波斯语的ALBERT的首次尝试。该模型是基于Google的ALBERT BASE 2.0版本进行训练的,使用了来自各个主题(如科学、小说、新闻等)的各种书写风格的文档,包括3.9M个文件、73M个句子和13亿个词,就像我们为ParsBERT做的那样。

有关先前和当前模型的最新信息,请关注 ALBERT-Persian 存储库。

波斯语文本分类[DigiMag,波斯新闻]

该任务的目标是以监督方式标记文本,同时使用现有数据集DigiMag和波斯新闻。

波斯新闻

这是一个从不同在线新闻机构的网站上获取的各种新闻文章数据集。总共有16,438篇文章,涵盖了八个不同的类别。

  • 经济
  • 国际
  • 政治
  • 科技
  • 文化艺术
  • 体育
  • 医疗
  • 你可以从 here 下载数据集。

    结果

    以下表格总结了与其他模型和架构相比获得的F1分数。

    Dataset ALBERT-fa-base-v2 ParsBERT-v1 mBERT
    Persian News 97.01 97.19 95.79

    BibTeX条目和引文信息

    请在文献中引用如下:

    @misc{ALBERTPersian,
      author = {Mehrdad Farahani},
      title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
      year = {2020},
      publisher = {GitHub},
      journal = {GitHub repository},
      howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
    }
    
    @article{ParsBERT,
        title={ParsBERT: Transformer-based Model for Persian Language Understanding},
        author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
        journal={ArXiv},
        year={2020},
        volume={abs/2005.12515}
    }
    

    有问题吗?

    ALBERT-Persian 存储库上发布一个Github问题。