模型:

cl-tohoku/bert-large-japanese-char

英文

BERT大型日语模型(字符级分词,整词掩蔽,jawiki-20200831)

这是一个在日语文本上预训练的模型,共有 BERT 个参数。

此版本的模型使用基于Unidic 2.1.2词典(可在 unidic-lite 包中获得)的词级分词处理输入文本,并进行字符级分词。此外,该模型是启用了整词掩蔽的训练,用于掩盖语言建模(MLM)目标。

预训练的代码可在 cl-tohoku/bert-japanese 找到。

模型结构

模型结构与原始的BERT大型模型相同;24层,1024维的隐藏状态和16个注意力头。

训练数据

模型是在日语版维基百科上训练的。训练语料库是从2020年8月31日的维基百科Cirrussearch转储文件生成的。

生成的语料文件总共是4.0GB,包含约30M个句子。我们使用了 MeCab 形态解析器和 mecab-ipadic-NEologd 词典将文本拆分为句子。

分词

文本首先通过Unidic 2.1.2词典进行MeCab分词,然后再按字符进行拆分。词汇表大小为6144。

我们使用了 fugashi unidic-lite 包进行分词。

训练

模型的训练配置与原始BERT相同;每个实例512个标记,每批256个实例,总共进行100万个训练步骤。对于MLM(掩蔽语言建模)的训练目标,我们引入了整词掩蔽,即一次掩蔽由MeCab分词后对应于单个词的所有子词标记。

对于每个模型的训练,我们使用了 TensorFlow Research Cloud program 提供的Cloud TPUs的v3-8实例。训练需要大约5天时间完成。

许可证

预训练模型按照 Creative Commons Attribution-ShareAlike 3.0 的条款分发。

致谢

此模型是通过 TensorFlow Research Cloud 计划提供的Cloud TPUs进行训练的。