模型:

airesearch/wangchanberta-base-wiki-spm

英文

WangchanBERTa基础模型:wangchanberta-base-wiki-spm

预训练的RoBERTa BASE模型,使用泰语维基百科语料库进行训练。脚本和文档可以在此处找到: this reposiryory

模型描述

预训练模型的架构基于RoBERTa: [Liu et al., 2019]

使用目的和限制

您可以使用预训练模型进行遮蔽语言建模(即预测输入文本中的掩码标记)。此外,我们还提供了多类/多标签文本分类和标记分类任务的微调模型。

多类文本分类

  • wisesight_sentiment

    基于社交媒体帖子和推文的4类文本分类任务(积极、中性、消极和疑问)

  • wongnai_reviews

    用户评论评级分类任务(评级范围为1到5)

  • generated_reviews_enth:(以review_star作为标签)

    生成的用户评论评级分类任务(评级范围为1到5)

多标签文本分类

  • prachathai67k

    基于prachathai.com的新闻文章语料库,具有12个标签的泰语主题分类。详细信息在此处描述: page

标记分类

  • thainer

    具有13个命名实体的命名实体识别标记,如此处所述: page

  • lst20:NER NER和POS标记

    具有10个命名实体和16个词性标记的命名实体识别标记,如此处所述: page

如何使用

可以在此处找到WangchanBERTa模型的入门笔记本: Colab notebook

训练数据

wangchanberta-base-wiki-spm模型是在泰语维基百科上进行预训练的。具体而言,我们使用2020年8月20日的维基百科文章转储(dumps.wikimedia.org/thwiki/20200820/)。我们排除了列表和表格。

预处理

文本使用以下规则进行预处理:

  • 用空格替换不间断空格、零宽度不间断空格和软连字符。
  • 删除标题第一个段落后紧接着出现的空括号。
  • 用<_>替换空格。

关于词汇表,我们使用在泰语维基百科语料库的训练集上使用 SentencePice 库训练的子词标记。子词标记的总数为24,000。

我们连续采样句子,以确保长度最多为512个标记。对于一些超过512个标记边界的句子,我们使用额外的标记将其拆分为多个句子作为文档分隔符。这与 [Liu et al., 2019] 提出的方法相同(称为"FULL-SENTENCES")。

关于屏蔽过程,对于每个序列,我们对其中的15%的标记进行采样,并将其替换为标记。

训练/验证/测试集拆分

我们将944,782个句子顺序拆分为训练集(944,782个句子)、验证集(24,863个句子)和测试集(24,862个句子)。

预训练

该模型在32个V100 GPU上进行了31,250步的训练,批量大小为8,192(每个设备16个序列,进行16次累积步骤),序列长度为512个标记。我们使用Adam优化器,学习率为$7e-4$,$\beta_1=0.9$,$\beta_2=0.98$,$\epsilon=1e-6$。学习率在前1250步进行热身,并线性衰减到零。选择验证损失最小的模型检查点作为最佳模型检查点。

BibTeX条目和引文信息:

@misc{lowphansirikul2021wangchanberta,
      title={WangchanBERTa: Pretraining transformer-based Thai Language Models}, 
      author={Lalita Lowphansirikul and Charin Polpanumas and Nawat Jantrakulchai and Sarana Nutanong},
      year={2021},
      eprint={2101.09635},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}