英文

日语BERT base(使用unidic-lite进行整个词掩码,jawiki-20200831)

该模型在日语文本上进行了预训练。

该版本的模型基于Unidic 2.1.2字典(此包中可用)对输入文本进行了词级标记化处理,然后进行了WordPiece子词标记化。此外,该模型在掩码语言建模(MLM)目标中启用了整个词掩码。

预训练的代码可在此处找到。

模型架构

模型架构与原始的BERT base模型相同;12层,768维的隐藏状态和12个注意力头。

训练数据

模型是在日语版本的维基百科上进行训练的。训练语料库是从2020年8月31日的维基百科Cirrussearch转储文件生成的。

生成的语料文件总共为4.0GB,包含约30M个句子。我们使用的词法分析器和字典将文本分割为句子。

标记化

文本首先通过Unidic 2.1.2字典进行标记化,然后通过WordPiece算法分割为子词。词汇表大小为32768。

我们使用的是和包来进行标记化。

训练

模型的训练配置与原始BERT相同:每个实例512个标记,每批256个实例,训练步骤为100万。对于MLM(掩码语言建模)目标的训练,我们引入了整个词掩码,即用于Mecab标记化的所有子词标记一次性被掩码。

对于每个模型的训练,我们使用了 提供的Cloud TPUs的v3-8实例。训练耗时约5天。

许可证

预训练模型的分发遵循的是 的条款。

致谢

该模型是使用 提供的Cloud TPUs进行训练的。