预训练的RoBERTa BASE模型,使用泰语维基百科语料库进行训练。脚本和文档可以在此处找到: this reposiryory
预训练模型的架构基于RoBERTa: [Liu et al., 2019]
您可以使用预训练模型进行遮蔽语言建模(即预测输入文本中的掩码标记)。此外,我们还提供了多类/多标签文本分类和标记分类任务的微调模型。
多类文本分类
wisesight_sentiment
基于社交媒体帖子和推文的4类文本分类任务(积极、中性、消极和疑问)
wongnai_reviews
用户评论评级分类任务(评级范围为1到5)
generated_reviews_enth:(以review_star作为标签)
生成的用户评论评级分类任务(评级范围为1到5)
多标签文本分类
prachathai67k
基于prachathai.com的新闻文章语料库,具有12个标签的泰语主题分类。详细信息在此处描述: page
标记分类
可以在此处找到WangchanBERTa模型的入门笔记本: Colab notebook
wangchanberta-base-wiki-spm模型是在泰语维基百科上进行预训练的。具体而言,我们使用2020年8月20日的维基百科文章转储(dumps.wikimedia.org/thwiki/20200820/)。我们排除了列表和表格。
文本使用以下规则进行预处理:
关于词汇表,我们使用在泰语维基百科语料库的训练集上使用 SentencePice 库训练的子词标记。子词标记的总数为24,000。
我们连续采样句子,以确保长度最多为512个标记。对于一些超过512个标记边界的句子,我们使用额外的标记将其拆分为多个句子作为文档分隔符。这与 [Liu et al., 2019] 提出的方法相同(称为"FULL-SENTENCES")。
关于屏蔽过程,对于每个序列,我们对其中的15%的标记进行采样,并将其替换为标记。
训练/验证/测试集拆分
我们将944,782个句子顺序拆分为训练集(944,782个句子)、验证集(24,863个句子)和测试集(24,862个句子)。
预训练
该模型在32个V100 GPU上进行了31,250步的训练,批量大小为8,192(每个设备16个序列,进行16次累积步骤),序列长度为512个标记。我们使用Adam优化器,学习率为$7e-4$,$\beta_1=0.9$,$\beta_2=0.98$,$\epsilon=1e-6$。学习率在前1250步进行热身,并线性衰减到零。选择验证损失最小的模型检查点作为最佳模型检查点。
BibTeX条目和引文信息:
@misc{lowphansirikul2021wangchanberta, title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong}, year={2021}, eprint={2101.09635}, archivePrefix={arXiv}, primaryClass={cs.CL} }