英文

ALBERT Base Spanish

这是一个在数据集 big spanish corpora 上训练的 ALBERT 模型。该模型在单个 TPU v3-8 上使用以下超参数和步数/时间进行训练:

  • 学习率:0.0008838834765
  • 批大小:960
  • 预热比率:0.00625
  • 预热步数:53333.33333
  • 目标步数:8533333.333
  • 总步数:3650000
  • 总训练时间(大约):70.4 天

训练损失