预训练的RoBERTa BASE模型,基于泰文维基百科语料库。脚本和文档可在 this reposiryory 找到。
预训练模型的架构基于 RoBERTa [Liu et al., 2019] 。
可以使用预训练模型进行掩码语言建模(即预测输入文本中的掩码标记)。此外,我们还提供了用于多类/多标签文本分类和标记分类任务的微调模型。
多类文本分类
wisesight_sentiment
基于社交媒体帖子和推文的4类文本分类任务(积极、中性、消极和问题)。
wongnai_reivews
用户评论评分分类任务(评分范围从1到5)。
generated_reviews_enth :(评分作为标签)
生成的用户评分分类任务(评分范围从1到5)。
多标签文本分类
prachathai67k
基于来自prachathai.com的新闻文章语料库的12个标签的泰文主题分类。详细信息请参见此处 page 。
标记分类
thainer
带有13个命名实体的命名实体识别标记,如此处 page 所述。
lst20 : NER NER和POS标记
带有10个命名实体和16个词性标记的命名实体识别标记,如此处 page 所述。
WangchanBERTa模型的入门笔记可以在此处找到 Colab notebook 。
wangchanberta-base-wiki-newmm 模型是在泰文维基百科上预训练的。具体而言,我们使用了2020年8月20日的维基百科文章转储(dumps.wikimedia.org/thwiki/20200820/)。我们排除了列表和表格。
文本使用以下规则预处理:
关于词汇表,我们使用 PyThaiNLP 的基于字典的分词器 newmm 的字级标记。词汇表中的词级标记总数为97,982。
我们顺序抽样句子以使其长度最大为512个标记。对于一些句子超过512个标记的情况,我们使用额外的分隔符标记将其分割。这与 [Liu et al., 2019] 提出的方法相同(称为"FULL-SENTENCES")。
关于掩码过程,对于每个序列,我们随机选择15%的标记并将其替换为
训练/验证/测试拆分
我们连续地拆分了944,782个句子用作训练集,24,863个句子用作验证集,以及24,862个句子用作测试集。
预训练
该模型在32个V100 GPU上进行了31,250个步骤的训练,批大小为8,192(每个设备16个序列,累积训练步骤为16),序列长度为512个标记。我们使用的优化器是带有学习率为$7e-4$,$\beta_1 = 0.9$,$\beta_2= 0.98$和$\epsilon = 1e-6$的Adam。学习率在前1250个步骤中热身,然后线性衰减到零。具有最小验证损失的模型检查点将被选为最佳模型检查点。
BibTeX条目和引用信息
@misc{lowphansirikul2021wangchanberta, title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong}, year={2021}, eprint={2101.09635}, archivePrefix={arXiv}, primaryClass={cs.CL} }