BERT基础日语模型（字符级标记化与整词掩蔽，jawiki-20200831）

此模型是在日语文本上预训练的，文本使用Unidic 2.1.2字典（在 unidic-lite 包中提供）进行单词级标记化，然后进行字符级标记化。此外，模型启用了整词掩蔽，用于掩蔽语言建模（MLM）目标。

预训练的代码可在 cl-tohoku/bert-japanese 中找到。

模型架构

此模型架构与原始的BERT基础模型相同，包括12层，768个隐藏状态维度，以及12个注意力头。

该模型在日语版本的维基百科上进行训练。训练语料是从维基百科Cirrussearch转储文件生成的，截至2020年8月31日。

生成的语料文件总计4.0GB，包含约30M个句子。我们使用了 MeCab 词法分析器和 mecab-ipadic-NEologd 字典将文本拆分为句子。

文本首先由MeCab标记化，并使用Unidic 2.1.2字典进行分词，然后拆分为字符。词汇表大小为6144。

我们使用的是 fugashi 和 unidic-lite 软件包进行标记化。

模型的训练采用与原始BERT相同的配置；每个实例512个标记，每个批次256个实例，共进行了100万个训练步骤。对于MLM（掩蔽语言建模）目标的训练，我们引入了整词掩蔽，即将由MeCab进行标记化的单个词对应的所有子词标记一起进行掩蔽。

对于每个模型的训练，我们使用了 TensorFlow Research Cloud program 提供的Cloud TPUs的v3-8实例。训练需要约5天时间完成。

预训练的模型根据 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。

此模型是使用 TensorFlow Research Cloud 计划提供的Cloud TPUs进行训练的。

作者:

Tohoku University

数据集大小:

1.04 GB