BERT基础版日语（基于字符级标记化和整词掩码的CC-100和jawiki-20230102预训练模型）

这是一个在日语文本上预训练的模型。

该版本的模型使用基于Unidic 2.1.2词典的词级标记化（在 unidic-lite 包中可用），然后进行字符级标记化。此外，模型在掩码语言建模（MLM）目标中启用了整词掩码。

预训练的代码可在 cl-tohoku/bert-japanese 处获得。

模型架构

模型架构与原始的BERT基础模型相同，包括12层、768维的隐藏状态和12个注意力头。

该模型在CC-100中的日语部分和Wikipedia的日语版本上进行训练。对于Wikipedia，我们从2023年1月2日的数据生成了一个文本语料库。从CC-100和Wikipedia生成的语料库文件分别为74.3GB和4.9GB，包含约392M和34M个句子。

为了将文本拆分成句子，我们使用 fugashi 和 mecab-ipadic-NEologd 字典（v0.0.7）。

文本首先由带有Unidic 2.1.2词典的MeCab进行标记化，然后再拆分成字符。词汇表大小为7027。

我们使用 fugashi 和 unidic-lite 软件包进行标记化。

我们首先在CC-100语料库上进行100万步的训练，然后在Wikipedia语料库上进行另外100万步的训练。对于MLM（掩码语言建模）目标的训练中，我们引入了整词掩码，即一次性掩码所有由MeCab标记化的子词标记对应的一个单词。

对于每个模型的训练，我们使用 TPU Research Cloud 提供的v3-8型号Cloud TPUs。

预训练模型使用Apache许可证2.0进行分发。

本模型是使用 TPU Research Cloud 计划提供的Cloud TPUs进行训练的。

作者:

Tohoku University

数据集大小:

1.05 GB