模型:
cl-tohoku/bert-base-japanese-char-whole-word-masking
这是一个在日语文本上预训练的模型,共有 BERT 个参数。
该版本的模型使用基于IPA字典的单词级分词,然后进行字符级分词。此外,该模型还启用了整词遮蔽,用于遮蔽语言建模(MLM)目标。
预训练的代码可在 cl-tohoku/bert-japanese 上获得。
模型架构与原始的BERT基础模型相同,包括12层、768个隐藏状态维度和12个注意力头。
该模型是使用2019年9月1日的日语维基百科进行训练的。为生成训练语料库,我们使用 WikiExtractor 从维基百科文章的转储文件中提取纯文本。训练使用的文本文件总共2.6GB,约包含1700万个句子。
文本首先使用 MeCab 形态分析器进行标记,然后按字符进行拆分。词汇表大小为4000。
模型的训练配置与原始的BERT相同;每个实例512个标记,每批256个实例,训练步骤100万。
在遮蔽语言建模(MLM)目标的训练中,我们引入Whole Word Masking方法,即将通过MeCab分词的所有子词标记同时进行遮蔽。
预训练模型按照 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。
在训练模型时,我们使用了 TensorFlow Research Cloud 提供的Cloud TPUs。