BERT大型日语模型（使用Unidic-lite和整词屏蔽，包括CC-100和jawiki-20230102）

此模型是在日语文本上预训练的 BERT 模型。

该版本的模型使用Unidic 2.1.2字典（在 unidic-lite 包中可用）进行基于词级标记的输入文本处理，然后使用WordPiece子词标记化。此外，该模型还启用了整词屏蔽功能，用于掩码语言建模（MLM）目标。

预训练的代码可在 cl-tohoku/bert-japanese 中找到。

模型架构

模型架构与原始BERT大型模型相同；24层、1024维的隐藏状态和16个注意力头。

训练数据

该模型基于 CC-100 dataset 的日语部分和维基百科的日语版本进行训练。对于维基百科，我们生成了一个从2023年1月2日的 Wikipedia Cirrussearch dump file 版本的文本语料库。从CC-100和维基百科生成的语料库文件的大小分别为74.3GB和4.9GB，大约包含392M和34M个句子。

为了将文本拆分为句子，我们使用 fugashi 和 mecab-ipadic-NEologd 词典（v0.0.7）。

标记化

首先，文本通过Unidic 2.1.2字典进行词级标记，然后通过WordPiece算法进行子词拆分。词汇量大小为32768。

我们使用 fugashi 和 unidic-lite 软件包进行标记化。

训练

我们首先在CC-100语料库上进行了100万步的训练，然后在维基百科语料库上进行了另外100万步的训练。对于MLM（掩码语言建模）目标的训练，我们引入了整词屏蔽，即一次掩码由MeCab进行标记的所有子词标记对应的单词（被标记化）。

对于每个模型的训练，我们使用 TPU Research Cloud 提供的v3-8云TPU实例。

许可证

预训练模型使用Apache License 2.0进行分发。

致谢

该模型是使用 TPU Research Cloud 计划提供的云TPU进行训练的。

作者:

Tohoku University

数据集大小:

3.91 GB