英文

ALBERT微型西班牙语

这是一个在 big spanish corpora 上训练的 ALBERT 模型。该模型在单个TPU v3-8上使用以下超参数和步骤/时间进行训练:

  • LR:0.00125
  • 批量大小:2048
  • 预热比例:0.0125
  • 预热步骤:125000
  • 目标步骤:10000000
  • 总步骤:8300000
  • 总训练时间(大约):58.2天

训练损失