模型:

google/bert_uncased_L-2_H-768_A-12

英文

BERT 迷你版

这是一组包含24个 BERT 模型的集合,参考自 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models (仅英文,不区分大小写,使用 WordPiece 掩码训练)。

我们已经证明了标准的 BERT 模型(包括模型架构和训练目标)在各种不同大小的模型上都非常有效,超越了 BERT-Base 和 BERT-Large。较小的 BERT 模型是为计算资源受限的环境而设计的。它们可以像原始的 BERT 模型一样进行微调。然而,它们在知识蒸馏的情境下最为有效,其中微调的标签由更大、更准确的教师模型生成。

我们的目标是支持计算资源有限的研究机构进行研究,并鼓励社区寻求创新方向,而不是不断增加模型容量。

您可以从以下链接中的 official BERT Github page 下载这24个 BERT 迷你版模型,或者通过 HuggingFace 下载:

H=128 H=256 H=512 H=768
L=2 1233321 1234321 1235321 1236321
L=4 1237321 1238321 1239321 12310321
L=6 12311321 12312321 12313321 12314321
L=8 12315321 12316321 12317321 12318321
L=10 12319321 12320321 12321321 12322321
L=12 12323321 12324321 12325321 12326321

请注意,此版本中的 BERT-Base 模型仅用于完整性说明;它是在与原始模型相同的训练模式下重新训练的。

以下是测试集上的 GLUE 得分:

Model Score CoLA SST-2 MRPC STS-B QQP MNLI-m MNLI-mm QNLI(v2) RTE WNLI AX
BERT-Tiny 64.2 0.0 83.2 81.1/71.1 74.3/73.6 62.2/83.4 70.2 70.3 81.5 57.2 62.3 21.0
BERT-Mini 65.8 0.0 85.9 81.1/71.8 75.4/73.3 66.4/86.2 74.8 74.3 84.1 57.9 62.3 26.1
BERT-Small 71.2 27.8 89.7 83.4/76.2 78.8/77.0 68.1/87.0 77.6 77.0 86.4 61.8 62.3 28.6
BERT-Medium 73.5 38.0 89.6 86.6/81.6 80.4/78.4 69.6/87.9 80.0 79.1 87.7 62.2 62.3 30.5

对于每个任务,我们从下面的列表中选择了最佳的微调超参数,并进行了 4 个 epoch 的训练:

  • 批量大小:8、16、32、64、128
  • 学习率:3e-4、1e-4、5e-5、3e-5

如果您使用这些模型,请引用以下论文:

@article{turc2019,
  title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
  author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
  journal={arXiv preprint arXiv:1908.08962v2 },
  year={2019}
}