模型:

cl-tohoku/bert-base-japanese-char

英文

BERT base Japanese(字符标记)

这是一个在日语文本上预训练的模型。

这个版本的模型使用基于IPA字典的词级标记处理输入文本,然后进行字符级标记。

预训练的代码可在此处找到。

模型架构

模型架构与原始BERT基础模型相同;12层、768维的隐藏状态和12个注意力头。

训练数据

该模型是在2019年9月1日的日本维基百科上进行训练的。为生成训练语料库,使用了用于从维基百科文章的转储文件中提取纯文本的工具。

用于训练的文本文件总共2.6GB,包含约1700万个句子。

标记化

文本首先通过基于IPA字典的词级形态分析器进行标记化,然后拆分为字符。词汇表大小为4000。

训练

模型的训练配置与原始BERT相同;每个实例512个标记,每批256个实例,共训练100万步。

许可证

预训练模型按照 Creative Commons Attribution-ShareAlike 3.0 的条款分发。

致谢

在训练模型时,我们使用了 TensorFlow Research Cloud 计划提供的Cloud TPU。