WangchanBERTa基础模型: wangchanberta-base-wiki-syllable

在泰语维基百科语料库上预训练的RoBERTa基础模型。脚本和文档可在此 this reposiryory 处找到。

模型描述

预训练模型的架构基于RoBERTa [Liu et al., 2019] 。

预期用途和限制

您可以使用预训练模型进行掩码语言建模（即预测输入文本中的掩码标记）。此外，我们还为多类/多标签文本分类和标记分类任务提供了微调模型。

多类文本分类

wisesight_sentiment

基于社交媒体帖子和推文的4类文本分类任务（积极、中性、消极和问题）。
wongnai_reivews

用户评论评级分类任务（评级范围为1到5）。
generated_reviews_enth：（review_star作为标签）

生成的用户评论评级分类任务（评级范围为1到5）。

多标签文本分类

prachathai67k

基于prachathai.com新闻文章语料库的泰语主题分类，共有12个标签。详细信息请参见此 page 处。

标记分类

thainer

以13个命名实体为特征的命名实体识别标记。详细信息请参见此 page 处。
lst20：NER和POS标记

以10个命名实体和16个词性标记为特征的命名实体识别标记。详细信息请参见此 page 处。

如何使用

WangchanBERTa模型的入门笔记可以在此 Colab notebook 处找到

训练数据

wangchanberta-base-wiki-syllable模型在泰语维基百科上进行了预训练。具体而言，我们使用的是2020年8月20日的维基百科文章转储（dumps.wikimedia.org/thwiki/20200820/）。我们排除了列表和表格。

预处理

文本按以下规则进行预处理：

将非间断空格、零宽度非间断空格和软连字符替换为空格。
删除标题后的空括号。
将空格替换为。

关于词汇表，我们使用了基于泰语音节级字典的分词器，用syllable表示，该分词器来自PyThaiNLP [Phatthiyaphaibun等，2016]。词汇表中的单词级标记总数为59,235个。

我们连续采样句子，使其长度最多为512个标记。对于一些超过512个标记边界的句子，我们使用附加标记来分割这样的句子作为文档分隔符。这是 [Liu et al., 2019] 提出的相同方法（称为“FULL-SENTENCES”）。

关于掩码过程，对于每个序列，我们随机选取15%的标记并用进行替换。

训练/验证/测试拆分

我们按顺序将944,782个句子用作训练集，24,863个句子用作验证集，24,862个句子用作测试集。

预训练

该模型在32个V100 GPU上进行了31,250步的训练，批大小为8,192（每个设备16个序列，累积步数为16），序列长度为512个标记。我们使用的优化器是带有学习率为$7e-4$、$\beta_1 = 0.9$、$\beta_2= 0.98$和$\epsilon = 1e-6$的Adam。学习率在前1250步进行了预热，并线性衰减到零。选择具有最小验证损失的模型检查点作为最佳模型检查点。

BibTeX条目和引文信息

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

作者:

VISTEC-depa AI Research Institute of Thailand

数据集大小:

1005.34 MB