模型:
HooshvareLab/bert-fa-base-uncased-clf-persiannews
用于波斯语理解的基于Transformer的模型
我们在新的波斯语语料库上重新构建了词汇表,并对ParsBERT v1.1进行了微调,以便为在其他领域使用ParsBERT提供一些功能!有关以前和当前模型的最新信息,请关注 ParsBERT repo。
该任务的目标是以监督方式对现有数据集DigiMag和波斯新闻中的文本进行标注。
这是一个从不同在线新闻机构网站上抓取的各种新闻文章数据集。共有16,438篇文章,分为八个不同的类别。
Label | # |
---|---|
Social | 2170 |
Economic | 1564 |
International | 1975 |
Political | 2269 |
Science Technology | 2436 |
Cultural Art | 2558 |
Sport | 1381 |
Medical | 2085 |
下载 您可以从 here 下载数据集
下表总结了ParsBERT与其他模型和架构相比获得的F1分数。
Dataset | ParsBERT v2 | ParsBERT v1 | mBERT |
---|---|---|---|
Persian News | 97.44* | 97.19 | 95.79 |
Task | Notebook |
---|---|
Text Classification | 1233321
请在出版物中如下引用:
@article{ParsBERT, title={ParsBERT: Transformer-based Model for Persian Language Understanding}, author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri}, journal={ArXiv}, year={2020}, volume={abs/2005.12515} }
在 ParsBERT Issues repo上发布Github问题。