英文

模型描述

该模型是基于BERT的缅甸预训练语言模型。MyanBERTa在一个由59,922,99个句子(1.36亿个单词)组成的分词后的缅甸语数据集上进行了528K步的预训练。作为分词器,使用了30522个子词单元的字节级BPE分词器,该分词器在进行了单词分词之后进行了学习。

引用此作品:

Aye Mya Hlaing, Win Pa Pa, "MyanBERTa: A Pre-trained Language Model For
Myanmar", In Proceedings of 2022 International Conference on Communication and Computer Research (ICCR2022), November 2022, Seoul, Republic of Korea

Download Paper