模型:
cl-tohoku/bert-base-japanese-char
这是一个在日语文本上预训练的模型。
这个版本的模型使用基于IPA字典的词级标记处理输入文本,然后进行字符级标记。
预训练的代码可在此处找到。
模型架构与原始BERT基础模型相同;12层、768维的隐藏状态和12个注意力头。
该模型是在2019年9月1日的日本维基百科上进行训练的。为生成训练语料库,使用了用于从维基百科文章的转储文件中提取纯文本的工具。
用于训练的文本文件总共2.6GB,包含约1700万个句子。
文本首先通过基于IPA字典的词级形态分析器进行标记化,然后拆分为字符。词汇表大小为4000。
模型的训练配置与原始BERT相同;每个实例512个标记,每批256个实例,共训练100万步。
预训练模型按照 Creative Commons Attribution-ShareAlike 3.0 的条款分发。
在训练模型时,我们使用了 TensorFlow Research Cloud 计划提供的Cloud TPU。