模型:
cl-tohoku/bert-large-japanese-char
这是一个在日语文本上预训练的模型,共有 BERT 个参数。
此版本的模型使用基于Unidic 2.1.2词典(可在 unidic-lite 包中获得)的词级分词处理输入文本,并进行字符级分词。此外,该模型是启用了整词掩蔽的训练,用于掩盖语言建模(MLM)目标。
预训练的代码可在 cl-tohoku/bert-japanese 找到。
模型结构与原始的BERT大型模型相同;24层,1024维的隐藏状态和16个注意力头。
模型是在日语版维基百科上训练的。训练语料库是从2020年8月31日的维基百科Cirrussearch转储文件生成的。
生成的语料文件总共是4.0GB,包含约30M个句子。我们使用了 MeCab 形态解析器和 mecab-ipadic-NEologd 词典将文本拆分为句子。
文本首先通过Unidic 2.1.2词典进行MeCab分词,然后再按字符进行拆分。词汇表大小为6144。
我们使用了 fugashi 和 unidic-lite 包进行分词。
模型的训练配置与原始BERT相同;每个实例512个标记,每批256个实例,总共进行100万个训练步骤。对于MLM(掩蔽语言建模)的训练目标,我们引入了整词掩蔽,即一次掩蔽由MeCab分词后对应于单个词的所有子词标记。
对于每个模型的训练,我们使用了 TensorFlow Research Cloud program 提供的Cloud TPUs的v3-8实例。训练需要大约5天时间完成。
预训练模型按照 Creative Commons Attribution-ShareAlike 3.0 的条款分发。
此模型是通过 TensorFlow Research Cloud 计划提供的Cloud TPUs进行训练的。