英文

WangchanBERTa基础模型: wangchanberta-base-att-spm-uncased

在各种泰语文本(78.5 GB)上预训练的RoBERTa BASE模型。脚本和文档可以在 this repository 上找到。

模型描述

预训练模型的架构基于RoBERTa [Liu et al., 2019]

预期用途与限制

您可以使用预训练模型进行遮蔽语言建模(即预测输入文本中的掩码标记)。此外,我们还提供了用于多类/多标签文本分类和标记分类任务的微调模型。

多类文本分类

  • wisesight_sentiment

    基于社交媒体帖子和推文的4类文本分类任务(正面,中性,负面和问题)。

  • wongnai_reivews

    用户评论评级分类任务(评级范围从1到5)。

  • generated_reviews_enth:(review_star作为标签)

    生成的用户评论评级分类任务(评级范围从1到5)。

多标签文本分类

  • prachathai67k

    基于prachathai.com新闻文章语料库的12个标签的泰语主题分类。在此 page 中描述了详细信息。

标记分类

  • thainer

    命名实体识别标记,有13个命名实体,如此 page 中所述。

  • lst20:NER NER和POS标记

    命名实体识别标记,有10个命名实体和16个词性标记,如此 page 中所述。

如何使用

可在此 Colab notebook 上找到WangchanBERTa模型的入门笔记本。

训练数据

wangchanberta-base-att-spm-uncased模型在各种泰语文本数据集上进行了预训练。未压缩文本的总大小为78.5GB。

预处理

文本经过以下规则进行预处理:

  • 使用实际字符替换HTML形式的字符,例如用空格替换nbsp;,用换行符替换\\\\\\\\。
  • 删除空括号((),{}和[]),这些括号有时会作为从维基百科等地方提取的文本的结果出现。
  • 将换行符替换为空格。
  • 将多个空格替换为一个空格。
  • 删除超过3个重复字符,例如将ดีมากกก替换为ดีมาก [Howard and Ruder, 2018]]( https://arxiv.org/abs/1801.06146 )。
  • 使用 [Phatthiyaphaibun et al., 2020] 的newmm基于字典的最大匹配分词器进行基于词的分词。
  • 替换重复的词;与英语不同,在泰语中没有空格来分隔,因此这是在标记后进行的替换, [Howard and Ruder, 2018] 中没有分隔。
  • 将空格替换为<_>。 SentencePiece标记器将空格与其他标记组合在一起。由于空格在泰语中用作标点符号,类似于英语中的句子边界,将其与其他标记组合会省略诸如词分词和句子分割等任务的重要特征。因此,我们选择使用<_>明确标记空格。

关于词汇表,我们使用SentencePiece [Kudo, 2018] 对训练集中的15M个句子进行训练了一种n元模型。标记器的词汇表大小为25,000个子词。

每个序列的长度限制为416个子词标记。

关于屏蔽过程,对于每个序列,我们对其进行了15%的随机遮蔽。

训练/验证/测试分割

在预处理和去重之后,我们得到了一个训练集,其中包含381,034,638个唯一的泰语句子,序列长度为5到300个词(78.5GB)。训练集总共有16,957,775,412个单词,由字典最大匹配的标记化表示为8,680,485,067个子词和53,035,823,287个字符。

预训练

该模型使用8个V100 GPU进行了500,000个步骤的训练,批量大小为4,096(每个设备32个序列,累积步骤为16),序列长度为416个标记。我们使用的优化器是Adam,学习率为$3e-4$,$\\\\\\\\beta_1=0.9$,$\\\\\\\\beta_2=0.999$,$\\\\\\\\epsilon=1e-6$。学习率在前24,000个步骤中逐渐提升到最大值,然后线性衰减至0。具有最小验证损失的模型检查点将被选为最佳模型检查点。

截至2021年1月24日,由于模型预训练尚未完成,我们发布了第360,000个步骤的模型检查点。

BibTeX条目和引用信息

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}