模型:
Addedk/kbbert-distilled-cased
此模型是 KB-BERT 的蒸馏版本。它使用瑞典数据进行蒸馏,使用了 Swedish Culturomics Gigaword Corpus 的2010-2015部分。蒸馏过程的代码可以在 here 中找到。这是我的硕士论文的一部分: Task-agnostic knowledge distillation of mBERT to Swedish 。
这是KB-BERT的6层版本,使用了 LightMBERT 的蒸馏方法,但没有冻结嵌入层。
您可以将原始模型用于掩码语言建模或下一个句子预测,但它主要用于在下游任务上进行微调。
用于蒸馏的数据是 Swedish Culturomics Gigaword Corpus 的2010-2015部分。分词后的数据大小约为7.4 GB。
在 SUCX 3.0 数据集上评估时,平均F1得分为0.887,与KB-BERT获得的0.894的得分相媲美。
更多结果和比较请参见我的硕士论文。