模型:

cl-tohoku/bert-base-japanese-char-v2

英文

BERT基础日语模型(字符级标记化与整词掩蔽,jawiki-20200831)

此模型是在日语文本上预训练的,文本使用Unidic 2.1.2字典(在 unidic-lite 包中提供)进行单词级标记化,然后进行字符级标记化。此外,模型启用了整词掩蔽,用于掩蔽语言建模(MLM)目标。

预训练的代码可在 cl-tohoku/bert-japanese 中找到。

模型架构

此模型架构与原始的BERT基础模型相同,包括12层,768个隐藏状态维度,以及12个注意力头。

训练数据

该模型在日语版本的维基百科上进行训练。训练语料是从维基百科Cirrussearch转储文件生成的,截至2020年8月31日。

生成的语料文件总计4.0GB,包含约30M个句子。我们使用了 MeCab 词法分析器和 mecab-ipadic-NEologd 字典将文本拆分为句子。

标记化

文本首先由MeCab标记化,并使用Unidic 2.1.2字典进行分词,然后拆分为字符。词汇表大小为6144。

我们使用的是 fugashi unidic-lite 软件包进行标记化。

训练

模型的训练采用与原始BERT相同的配置;每个实例512个标记,每个批次256个实例,共进行了100万个训练步骤。对于MLM(掩蔽语言建模)目标的训练,我们引入了整词掩蔽,即将由MeCab进行标记化的单个词对应的所有子词标记一起进行掩蔽。

对于每个模型的训练,我们使用了 TensorFlow Research Cloud program 提供的Cloud TPUs的v3-8实例。训练需要约5天时间完成。

许可证

预训练的模型根据 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。

致谢

此模型是使用 TensorFlow Research Cloud 计划提供的Cloud TPUs进行训练的。