模型:

cl-tohoku/bert-base-japanese-char-v3

英文

BERT基础版日语(基于字符级标记化和整词掩码的CC-100和jawiki-20230102预训练模型)

这是一个在日语文本上预训练的模型。

该版本的模型使用基于Unidic 2.1.2词典的词级标记化(在 unidic-lite 包中可用),然后进行字符级标记化。此外,模型在掩码语言建模(MLM)目标中启用了整词掩码。

预训练的代码可在 cl-tohoku/bert-japanese 处获得。

模型架构

模型架构与原始的BERT基础模型相同,包括12层、768维的隐藏状态和12个注意力头。

训练数据

该模型在CC-100中的日语部分和Wikipedia的日语版本上进行训练。对于Wikipedia,我们从2023年1月2日的数据生成了一个文本语料库。从CC-100和Wikipedia生成的语料库文件分别为74.3GB和4.9GB,包含约392M和34M个句子。

为了将文本拆分成句子,我们使用 fugashi mecab-ipadic-NEologd 字典(v0.0.7)。

标记化

文本首先由带有Unidic 2.1.2词典的MeCab进行标记化,然后再拆分成字符。词汇表大小为7027。

我们使用 fugashi unidic-lite 软件包进行标记化。

训练

我们首先在CC-100语料库上进行100万步的训练,然后在Wikipedia语料库上进行另外100万步的训练。对于MLM(掩码语言建模)目标的训练中,我们引入了整词掩码,即一次性掩码所有由MeCab标记化的子词标记对应的一个单词。

对于每个模型的训练,我们使用 TPU Research Cloud 提供的v3-8型号Cloud TPUs。

许可证

预训练模型使用Apache许可证2.0进行分发。

致谢

本模型是使用 TPU Research Cloud 计划提供的Cloud TPUs进行训练的。