模型:
cl-tohoku/bert-base-japanese-char-v3
语言:
ja许可:
apache-2.0这是一个在日语文本上预训练的模型。
该版本的模型使用基于Unidic 2.1.2词典的词级标记化(在 unidic-lite 包中可用),然后进行字符级标记化。此外,模型在掩码语言建模(MLM)目标中启用了整词掩码。
预训练的代码可在 cl-tohoku/bert-japanese 处获得。
模型架构与原始的BERT基础模型相同,包括12层、768维的隐藏状态和12个注意力头。
该模型在CC-100中的日语部分和Wikipedia的日语版本上进行训练。对于Wikipedia,我们从2023年1月2日的数据生成了一个文本语料库。从CC-100和Wikipedia生成的语料库文件分别为74.3GB和4.9GB,包含约392M和34M个句子。
为了将文本拆分成句子,我们使用 fugashi 和 mecab-ipadic-NEologd 字典(v0.0.7)。
文本首先由带有Unidic 2.1.2词典的MeCab进行标记化,然后再拆分成字符。词汇表大小为7027。
我们使用 fugashi 和 unidic-lite 软件包进行标记化。
我们首先在CC-100语料库上进行100万步的训练,然后在Wikipedia语料库上进行另外100万步的训练。对于MLM(掩码语言建模)目标的训练中,我们引入了整词掩码,即一次性掩码所有由MeCab标记化的子词标记对应的一个单词。
对于每个模型的训练,我们使用 TPU Research Cloud 提供的v3-8型号Cloud TPUs。
预训练模型使用Apache许可证2.0进行分发。
本模型是使用 TPU Research Cloud 计划提供的Cloud TPUs进行训练的。