模型:
cl-tohoku/bert-base-japanese-char-v2
此模型是在日语文本上预训练的,文本使用Unidic 2.1.2字典(在 unidic-lite 包中提供)进行单词级标记化,然后进行字符级标记化。此外,模型启用了整词掩蔽,用于掩蔽语言建模(MLM)目标。
预训练的代码可在 cl-tohoku/bert-japanese 中找到。
此模型架构与原始的BERT基础模型相同,包括12层,768个隐藏状态维度,以及12个注意力头。
该模型在日语版本的维基百科上进行训练。训练语料是从维基百科Cirrussearch转储文件生成的,截至2020年8月31日。
生成的语料文件总计4.0GB,包含约30M个句子。我们使用了 MeCab 词法分析器和 mecab-ipadic-NEologd 字典将文本拆分为句子。
文本首先由MeCab标记化,并使用Unidic 2.1.2字典进行分词,然后拆分为字符。词汇表大小为6144。
我们使用的是 fugashi 和 unidic-lite 软件包进行标记化。
模型的训练采用与原始BERT相同的配置;每个实例512个标记,每个批次256个实例,共进行了100万个训练步骤。对于MLM(掩蔽语言建模)目标的训练,我们引入了整词掩蔽,即将由MeCab进行标记化的单个词对应的所有子词标记一起进行掩蔽。
对于每个模型的训练,我们使用了 TensorFlow Research Cloud program 提供的Cloud TPUs的v3-8实例。训练需要约5天时间完成。
预训练的模型根据 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。
此模型是使用 TensorFlow Research Cloud 计划提供的Cloud TPUs进行训练的。