模型:
airesearch/wangchanberta-base-att-spm-uncased
在各种泰语文本(78.5 GB)上预训练的RoBERTa BASE模型。脚本和文档可以在 this repository 上找到。
预训练模型的架构基于RoBERTa [Liu et al., 2019] 。
您可以使用预训练模型进行遮蔽语言建模(即预测输入文本中的掩码标记)。此外,我们还提供了用于多类/多标签文本分类和标记分类任务的微调模型。
多类文本分类
wisesight_sentiment
基于社交媒体帖子和推文的4类文本分类任务(正面,中性,负面和问题)。
wongnai_reivews
用户评论评级分类任务(评级范围从1到5)。
generated_reviews_enth:(review_star作为标签)
生成的用户评论评级分类任务(评级范围从1到5)。
多标签文本分类
prachathai67k
基于prachathai.com新闻文章语料库的12个标签的泰语主题分类。在此 page 中描述了详细信息。
标记分类
可在此 Colab notebook 上找到WangchanBERTa模型的入门笔记本。
wangchanberta-base-att-spm-uncased模型在各种泰语文本数据集上进行了预训练。未压缩文本的总大小为78.5GB。
文本经过以下规则进行预处理:
关于词汇表,我们使用SentencePiece [Kudo, 2018] 对训练集中的15M个句子进行训练了一种n元模型。标记器的词汇表大小为25,000个子词。
每个序列的长度限制为416个子词标记。
关于屏蔽过程,对于每个序列,我们对其进行了15%的随机遮蔽。
训练/验证/测试分割
在预处理和去重之后,我们得到了一个训练集,其中包含381,034,638个唯一的泰语句子,序列长度为5到300个词(78.5GB)。训练集总共有16,957,775,412个单词,由字典最大匹配的标记化表示为8,680,485,067个子词和53,035,823,287个字符。
预训练
该模型使用8个V100 GPU进行了500,000个步骤的训练,批量大小为4,096(每个设备32个序列,累积步骤为16),序列长度为416个标记。我们使用的优化器是Adam,学习率为$3e-4$,$\\\\\\\\beta_1=0.9$,$\\\\\\\\beta_2=0.999$,$\\\\\\\\epsilon=1e-6$。学习率在前24,000个步骤中逐渐提升到最大值,然后线性衰减至0。具有最小验证损失的模型检查点将被选为最佳模型检查点。
截至2021年1月24日,由于模型预训练尚未完成,我们发布了第360,000个步骤的模型检查点。
BibTeX条目和引用信息
@misc{lowphansirikul2021wangchanberta, title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong}, year={2021}, eprint={2101.09635}, archivePrefix={arXiv}, primaryClass={cs.CL} }