模型:

monsoon-nlp/bangla-electra

英文

Bangla-Electra

这是对Google研究的 ELECTRA 进行的孟加拉语/孟加拉文字训练的第二次尝试。

截至2022年,我建议使用Google的MuRIL模型,该模型在英语、孟加拉语和其他重要印度语言中进行了训练,包括其本地文字和拉丁转写方式: https://huggingface.co/google/muril-base-cased https://huggingface.co/google/muril-large-cased

对于因果语言模型,我建议使用 https://huggingface.co/sberbank-ai/mGPT ,尽管这是一个庞大的模型

标记化和预训练CoLab: https://colab.research.google.com/drive/1gpwHvXAnNQaqcu-YNx1kafEVxz07g2jL

V1-120,000步骤;V2-190,000步骤

分类

使用SimpleTransformers进行分类: https://colab.research.google.com/drive/1vltPI81atzRvlALv4eCvEB0KdFoEaCOb

在Soham Chatterjee的 news classification task 上:(随机:16.7%,mBERT:72.3%,Bangla-Electra:82.3%)

在一些任务和配置中类似于mBERT,详情请参阅 https://arxiv.org/abs/2004.07807

问答

此模型可以用于问答-此笔记本使用了Google的TyDi数据集中的孟加拉语问题: https://colab.research.google.com/drive/1i6fidh2tItf_-IDkljMuaIGmEU6HT2Ar

语料库

https://oscar-corpus.com/ 的网络抓取(去重版本,5.8GB)和bn.wikipedia.org的2020年7月1日转储(414MB)上进行了训练

词汇表

包含在上传的vocab.txt中-词汇表大小为29898