BERT基础日语模型（使用Unidic-lite和整词遮蔽，包含CC-100和jawiki-20230102）

该模型是在日语文本上进行预训练的。

该模型版本使用Unidic 2.1.2字典（在 unidic-lite 包中可用）对输入文本进行基于单词级别的标记，然后使用WordPiece子词标记方法。此外，该模型通过启用整词遮蔽进行遮蔽语言建模（MLM）目标的训练。

该预训练的代码可在 cl-tohoku/bert-japanese 中获取。

模型架构

该模型的架构与原始的BERT基础模型相同；具有12层、隐藏状态维度为768、注意力头数为12。

该模型在CC-100的日语部分和维基百科日语版上进行训练。对于维基百科，我们根据2023年1月2日的数据生成了一个文本语料库。从CC-100和维基百科生成的语料文件大小分别为74.3GB和4.9GB，大约包含392M和34M个句子。

为了将文本拆分成句子，我们使用了 fugashi 和 mecab-ipadic-NEologd 词典（v0.0.7）。

首先使用具有Unidic 2.1.2字典的MeCab对文本进行标记，然后使用WordPiece算法将其拆分为子词。词汇表大小为32768。

我们使用了 fugashi 和 unidic-lite 包进行分词。

我们先在CC-100语料库上进行了100万步的训练，然后在维基百科语料库上进行了另外100万步的训练。对于遮蔽语言建模（MLM）目标的训练，我们引入了整词遮蔽，即一次性遮蔽所有由MeCab标记为一个单词的子词标记。

对于每个模型的训练，我们使用了由 TPU Research Cloud 提供的Cloud TPUs的v3-8实例。

预训练模型以Apache License 2.0发布。

该模型是使用 TPU Research Cloud 计划提供的Cloud TPUs进行训练的。

作者:

Tohoku University

数据集大小:

1.35 GB