模型:

airesearch/wangchanberta-base-wiki-syllable

英文

WangchanBERTa基础模型: wangchanberta-base-wiki-syllable

在泰语维基百科语料库上预训练的RoBERTa基础模型。脚本和文档可在此 this reposiryory 处找到。

模型描述

预训练模型的架构基于RoBERTa [Liu et al., 2019]

预期用途和限制

您可以使用预训练模型进行掩码语言建模(即预测输入文本中的掩码标记)。此外,我们还为多类/多标签文本分类和标记分类任务提供了微调模型。

多类文本分类

  • wisesight_sentiment

    基于社交媒体帖子和推文的4类文本分类任务(积极、中性、消极和问题)。

  • wongnai_reivews

    用户评论评级分类任务(评级范围为1到5)。

  • generated_reviews_enth:(review_star作为标签)

    生成的用户评论评级分类任务(评级范围为1到5)。

多标签文本分类

  • prachathai67k

    基于prachathai.com新闻文章语料库的泰语主题分类,共有12个标签。详细信息请参见此 page 处。

标记分类

  • thainer

    以13个命名实体为特征的命名实体识别标记。详细信息请参见此 page 处。

  • lst20:NER和POS标记

    以10个命名实体和16个词性标记为特征的命名实体识别标记。详细信息请参见此 page 处。

如何使用

WangchanBERTa模型的入门笔记可以在此 Colab notebook 处找到

训练数据

wangchanberta-base-wiki-syllable模型在泰语维基百科上进行了预训练。具体而言,我们使用的是2020年8月20日的维基百科文章转储(dumps.wikimedia.org/thwiki/20200820/)。我们排除了列表和表格。

预处理

文本按以下规则进行预处理:

  • 将非间断空格、零宽度非间断空格和软连字符替换为空格。
  • 删除标题后的空括号。
  • 将空格替换为。

关于词汇表,我们使用了基于泰语音节级字典的分词器,用syllable表示,该分词器来自PyThaiNLP [Phatthiyaphaibun等,2016]。词汇表中的单词级标记总数为59,235个。

我们连续采样句子,使其长度最多为512个标记。对于一些超过512个标记边界的句子,我们使用附加标记来分割这样的句子作为文档分隔符。这是 [Liu et al., 2019] 提出的相同方法(称为“FULL-SENTENCES”)。

关于掩码过程,对于每个序列,我们随机选取15%的标记并用进行替换。

训练/验证/测试拆分

我们按顺序将944,782个句子用作训练集,24,863个句子用作验证集,24,862个句子用作测试集。

预训练

该模型在32个V100 GPU上进行了31,250步的训练,批大小为8,192(每个设备16个序列,累积步数为16),序列长度为512个标记。我们使用的优化器是带有学习率为$7e-4$、$\beta_1 = 0.9$、$\beta_2= 0.98$和$\epsilon = 1e-6$的Adam。学习率在前1250步进行了预热,并线性衰减到零。选择具有最小验证损失的模型检查点作为最佳模型检查点。

BibTeX条目和引文信息

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}