模型:
monsoon-nlp/bangla-electra
这是对Google研究的 ELECTRA 进行的孟加拉语/孟加拉文字训练的第二次尝试。
截至2022年,我建议使用Google的MuRIL模型,该模型在英语、孟加拉语和其他重要印度语言中进行了训练,包括其本地文字和拉丁转写方式: https://huggingface.co/google/muril-base-cased 和 https://huggingface.co/google/muril-large-cased
对于因果语言模型,我建议使用 https://huggingface.co/sberbank-ai/mGPT ,尽管这是一个庞大的模型
标记化和预训练CoLab: https://colab.research.google.com/drive/1gpwHvXAnNQaqcu-YNx1kafEVxz07g2jL
V1-120,000步骤;V2-190,000步骤
使用SimpleTransformers进行分类: https://colab.research.google.com/drive/1vltPI81atzRvlALv4eCvEB0KdFoEaCOb
在Soham Chatterjee的 news classification task 上:(随机:16.7%,mBERT:72.3%,Bangla-Electra:82.3%)
在一些任务和配置中类似于mBERT,详情请参阅 https://arxiv.org/abs/2004.07807
此模型可以用于问答-此笔记本使用了Google的TyDi数据集中的孟加拉语问题: https://colab.research.google.com/drive/1i6fidh2tItf_-IDkljMuaIGmEU6HT2Ar
在 https://oscar-corpus.com/ 的网络抓取(去重版本,5.8GB)和bn.wikipedia.org的2020年7月1日转储(414MB)上进行了训练
包含在上传的vocab.txt中-词汇表大小为29898