英文

arwiki_mlm(arRoBERTa)

这个模型是在一个未知的数据集上对 进行微调的版本。它在评估集上取得了如下结果:

  • 伪困惑度:

模型描述

需要更多信息

预期用途和限制

需要更多信息

训练和评估数据

需要更多信息

训练过程

训练超参数

在训练过程中使用了以下超参数:

  • 学习率:0.0001
  • 训练批大小:256
  • 评估批大小:8
  • 种子:42
  • 优化器:Adam,beta=(0.9, 0.98),epsilon=1e-06
  • 学习率调度器类型:线性
  • 训练轮数:5

训练结果

Epoch Step Training Loss
1 3000 5.681200
2 6000 3.777100
3 9000 3.246300
4 12000 3.012100
5 15000 2.888400
Train Runtime Train Samples Per Second Train Steps Per Second Total Flos Train Loss Epoch
17048.756800 248.355000 0.970000 140390797515571200.000000 3.639375 5.000000

框架版本

  • 数据集:2.9.0
  • 分词器:0.12.1
  • 转换器:4.24.0
  • Pytorch:1.12.1+cu116