模型:

Addedk/kbbert-distilled-cased

英文

KB-BERT蒸馏基础模型(大小写敏感)

此模型是 KB-BERT 的蒸馏版本。它使用瑞典数据进行蒸馏,使用了 Swedish Culturomics Gigaword Corpus 的2010-2015部分。蒸馏过程的代码可以在 here 中找到。这是我的硕士论文的一部分: Task-agnostic knowledge distillation of mBERT to Swedish

模型描述

这是KB-BERT的6层版本,使用了 LightMBERT 的蒸馏方法,但没有冻结嵌入层。

预期用途和限制

您可以将原始模型用于掩码语言建模或下一个句子预测,但它主要用于在下游任务上进行微调。

训练数据

用于蒸馏的数据是 Swedish Culturomics Gigaword Corpus 的2010-2015部分。分词后的数据大小约为7.4 GB。

评估结果

SUCX 3.0 数据集上评估时,平均F1得分为0.887,与KB-BERT获得的0.894的得分相媲美。

更多结果和比较请参见我的硕士论文。