模型:

cl-tohoku/bert-base-japanese-char-whole-word-masking

英文

BERT基础版日语(字符分词,启用整词遮蔽)

这是一个在日语文本上预训练的模型,共有 BERT 个参数。

该版本的模型使用基于IPA字典的单词级分词,然后进行字符级分词。此外,该模型还启用了整词遮蔽,用于遮蔽语言建模(MLM)目标。

预训练的代码可在 cl-tohoku/bert-japanese 上获得。

模型架构

模型架构与原始的BERT基础模型相同,包括12层、768个隐藏状态维度和12个注意力头。

训练数据

该模型是使用2019年9月1日的日语维基百科进行训练的。为生成训练语料库,我们使用 WikiExtractor 从维基百科文章的转储文件中提取纯文本。训练使用的文本文件总共2.6GB,约包含1700万个句子。

分词

文本首先使用 MeCab 形态分析器进行标记,然后按字符进行拆分。词汇表大小为4000。

训练

模型的训练配置与原始的BERT相同;每个实例512个标记,每批256个实例,训练步骤100万。

在遮蔽语言建模(MLM)目标的训练中,我们引入Whole Word Masking方法,即将通过MeCab分词的所有子词标记同时进行遮蔽。

许可证

预训练模型按照 Creative Commons Attribution-ShareAlike 3.0 的条款进行分发。

致谢

在训练模型时,我们使用了 TensorFlow Research Cloud 提供的Cloud TPUs。