BERT 迷你版

这是一组包含24个 BERT 模型的集合，参考自 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models （仅英文，不区分大小写，使用 WordPiece 掩码训练）。

我们已经证明了标准的 BERT 模型（包括模型架构和训练目标）在各种不同大小的模型上都非常有效，超越了 BERT-Base 和 BERT-Large。较小的 BERT 模型是为计算资源受限的环境而设计的。它们可以像原始的 BERT 模型一样进行微调。然而，它们在知识蒸馏的情境下最为有效，其中微调的标签由更大、更准确的教师模型生成。

我们的目标是支持计算资源有限的研究机构进行研究，并鼓励社区寻求创新方向，而不是不断增加模型容量。

您可以从以下链接中的 official BERT Github page 下载这24个 BERT 迷你版模型，或者通过 HuggingFace 下载：

H=128	H=256	H=512	H=768
L=2	1233321	1234321	1235321	1236321
L=4	1237321	1238321	1239321	12310321
L=6	12311321	12312321	12313321	12314321
L=8	12315321	12316321	12317321	12318321
L=10	12319321	12320321	12321321	12322321
L=12	12323321	12324321	12325321	12326321

请注意，此版本中的 BERT-Base 模型仅用于完整性说明；它是在与原始模型相同的训练模式下重新训练的。

以下是测试集上的 GLUE 得分：

Model	Score	CoLA	SST-2	MRPC	STS-B	QQP	MNLI-m	MNLI-mm	QNLI(v2)	RTE	WNLI	AX
BERT-Tiny	64.2	0.0	83.2	81.1/71.1	74.3/73.6	62.2/83.4	70.2	70.3	81.5	57.2	62.3	21.0
BERT-Mini	65.8	0.0	85.9	81.1/71.8	75.4/73.3	66.4/86.2	74.8	74.3	84.1	57.9	62.3	26.1
BERT-Small	71.2	27.8	89.7	83.4/76.2	78.8/77.0	68.1/87.0	77.6	77.0	86.4	61.8	62.3	28.6
BERT-Medium	73.5	38.0	89.6	86.6/81.6	80.4/78.4	69.6/87.9	80.0	79.1	87.7	62.2	62.3	30.5

对于每个任务，我们从下面的列表中选择了最佳的微调超参数，并进行了 4 个 epoch 的训练：

批量大小：8、16、32、64、128
学习率：3e-4、1e-4、5e-5、3e-5

如果您使用这些模型，请引用以下论文：

@article{turc2019,
  title={Well-Read Students Learn Better: On the Importance of Pre-training Compact Models},
  author={Turc, Iulia and Chang, Ming-Wei and Lee, Kenton and Toutanova, Kristina},
  journal={arXiv preprint arXiv:1908.08962v2 },
  year={2019}
}

作者:

Google AI

数据集大小:

446.78 MB