模型:

cl-tohoku/bert-large-japanese-char-v2

英文

BERT大型日语模型(基于字符级和全词屏蔽的分词,CC-100和jawiki-20230102)

这是一个在日语文本上预训练的模型。

此版本的模型使用Unidic 2.1.2字典(在 unidic-lite 包中可用)对输入文本进行单词级别的分词,然后进行字符级别的分词。此外,该模型还在屏蔽语言模型(MLM)目标中启用了全词屏蔽的训练。

预训练的代码可在 cl-tohoku/bert-japanese 获取。

模型架构

模型架构与原始BERT大型模型相同,有24层,1024个隐藏状态维度和16个注意力头。

训练数据

模型在 CC-100 dataset 的日语部分和维基百科的日文版上进行训练。对于维基百科,我们从2023年1月2日版本的 Wikipedia Cirrussearch dump file 生成了一个文本语料库。CC-100和维基百科生成的语料库文件分别为74.3GB和4.9GB,大约包含392M和34M个句子。

为了将文本分割成句子,我们使用了 fugashi mecab-ipadic-NEologd 词典(v0.0.7)。

分词

首先,使用Unidic 2.1.2字典通过MeCab对文本进行分词,然后将其分割为字符。词汇量为7027。

我们使用了 fugashi unidic-lite 进行分词。

训练

我们首先在CC-100语料库上进行了100万步的训练,然后在维基百科语料库上进行了100万步的训练。对于MLM(屏蔽语言建模)目标的训练,我们引入了全词屏蔽,即一次性屏蔽由MeCab进行分词的所有子单词标记。

对于每个模型的训练,我们使用了由 TPU Research Cloud 提供的Cloud TPUs的v3-8实例。

许可证

预训练的模型依据Apache许可证2.0进行分发。

致谢

该模型是由 TPU Research Cloud 计划提供的Cloud TPUs进行训练的。