模型:
cl-tohoku/bert-large-japanese-char-v2
语言:
ja许可:
apache-2.0这是一个在日语文本上预训练的模型。
此版本的模型使用Unidic 2.1.2字典(在 unidic-lite 包中可用)对输入文本进行单词级别的分词,然后进行字符级别的分词。此外,该模型还在屏蔽语言模型(MLM)目标中启用了全词屏蔽的训练。
预训练的代码可在 cl-tohoku/bert-japanese 获取。
模型架构与原始BERT大型模型相同,有24层,1024个隐藏状态维度和16个注意力头。
模型在 CC-100 dataset 的日语部分和维基百科的日文版上进行训练。对于维基百科,我们从2023年1月2日版本的 Wikipedia Cirrussearch dump file 生成了一个文本语料库。CC-100和维基百科生成的语料库文件分别为74.3GB和4.9GB,大约包含392M和34M个句子。
为了将文本分割成句子,我们使用了 fugashi 和 mecab-ipadic-NEologd 词典(v0.0.7)。
首先,使用Unidic 2.1.2字典通过MeCab对文本进行分词,然后将其分割为字符。词汇量为7027。
我们使用了 fugashi 和 unidic-lite 进行分词。
我们首先在CC-100语料库上进行了100万步的训练,然后在维基百科语料库上进行了100万步的训练。对于MLM(屏蔽语言建模)目标的训练,我们引入了全词屏蔽,即一次性屏蔽由MeCab进行分词的所有子单词标记。
对于每个模型的训练,我们使用了由 TPU Research Cloud 提供的Cloud TPUs的v3-8实例。
预训练的模型依据Apache许可证2.0进行分发。
该模型是由 TPU Research Cloud 计划提供的Cloud TPUs进行训练的。