在泰语维基百科语料库上预训练的RoBERTa基础模型。脚本和文档可在此 this reposiryory 处找到。
预训练模型的架构基于RoBERTa [Liu et al., 2019] 。
您可以使用预训练模型进行掩码语言建模(即预测输入文本中的掩码标记)。此外,我们还为多类/多标签文本分类和标记分类任务提供了微调模型。
多类文本分类
wisesight_sentiment
基于社交媒体帖子和推文的4类文本分类任务(积极、中性、消极和问题)。
wongnai_reivews
用户评论评级分类任务(评级范围为1到5)。
generated_reviews_enth:(review_star作为标签)
生成的用户评论评级分类任务(评级范围为1到5)。
多标签文本分类
prachathai67k
基于prachathai.com新闻文章语料库的泰语主题分类,共有12个标签。详细信息请参见此 page 处。
标记分类
thainer
以13个命名实体为特征的命名实体识别标记。详细信息请参见此 page 处。
lst20:NER和POS标记
以10个命名实体和16个词性标记为特征的命名实体识别标记。详细信息请参见此 page 处。
WangchanBERTa模型的入门笔记可以在此 Colab notebook 处找到
wangchanberta-base-wiki-syllable模型在泰语维基百科上进行了预训练。具体而言,我们使用的是2020年8月20日的维基百科文章转储(dumps.wikimedia.org/thwiki/20200820/)。我们排除了列表和表格。
文本按以下规则进行预处理:
关于词汇表,我们使用了基于泰语音节级字典的分词器,用syllable表示,该分词器来自PyThaiNLP [Phatthiyaphaibun等,2016]。词汇表中的单词级标记总数为59,235个。
我们连续采样句子,使其长度最多为512个标记。对于一些超过512个标记边界的句子,我们使用附加标记来分割这样的句子作为文档分隔符。这是 [Liu et al., 2019] 提出的相同方法(称为“FULL-SENTENCES”)。
关于掩码过程,对于每个序列,我们随机选取15%的标记并用进行替换。
训练/验证/测试拆分
我们按顺序将944,782个句子用作训练集,24,863个句子用作验证集,24,862个句子用作测试集。
预训练
该模型在32个V100 GPU上进行了31,250步的训练,批大小为8,192(每个设备16个序列,累积步数为16),序列长度为512个标记。我们使用的优化器是带有学习率为$7e-4$、$\beta_1 = 0.9$、$\beta_2= 0.98$和$\epsilon = 1e-6$的Adam。学习率在前1250步进行了预热,并线性衰减到零。选择具有最小验证损失的模型检查点作为最佳模型检查点。
BibTeX条目和引文信息
@misc{lowphansirikul2021wangchanberta, title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong}, year={2021}, eprint={2101.09635}, archivePrefix={arXiv}, primaryClass={cs.CL} }