BERT大型日语模型（字符级分词，整词掩蔽，jawiki-20200831）

这是一个在日语文本上预训练的模型，共有 BERT 个参数。

此版本的模型使用基于Unidic 2.1.2词典（可在 unidic-lite 包中获得）的词级分词处理输入文本，并进行字符级分词。此外，该模型是启用了整词掩蔽的训练，用于掩盖语言建模（MLM）目标。

预训练的代码可在 cl-tohoku/bert-japanese 找到。

模型结构

模型结构与原始的BERT大型模型相同；24层，1024维的隐藏状态和16个注意力头。

模型是在日语版维基百科上训练的。训练语料库是从2020年8月31日的维基百科Cirrussearch转储文件生成的。

生成的语料文件总共是4.0GB，包含约30M个句子。我们使用了 MeCab 形态解析器和 mecab-ipadic-NEologd 词典将文本拆分为句子。

文本首先通过Unidic 2.1.2词典进行MeCab分词，然后再按字符进行拆分。词汇表大小为6144。

我们使用了 fugashi 和 unidic-lite 包进行分词。

模型的训练配置与原始BERT相同；每个实例512个标记，每批256个实例，总共进行100万个训练步骤。对于MLM（掩蔽语言建模）的训练目标，我们引入了整词掩蔽，即一次掩蔽由MeCab分词后对应于单个词的所有子词标记。

对于每个模型的训练，我们使用了 TensorFlow Research Cloud program 提供的Cloud TPUs的v3-8实例。训练需要大约5天时间完成。

此模型是通过 TensorFlow Research Cloud 计划提供的Cloud TPUs进行训练的。

作者:

Tohoku University

数据集大小:

3.5 GB