英文

roberta-large-sst2

该模型是在GLUE数据集上对 roberta-large 进行微调的版本。在评估集上实现以下结果:

  • 损失:0.1400
  • 准确率:0.9644

模型描述

需要更多信息

预期用途和限制

需要更多信息

训练和评估数据

需要更多信息

训练程序

训练超参数

训练时使用了以下超参数:

  • 学习率:3e-05
  • 训练批大小:32
  • 评估批大小:32
  • 种子:42
  • 分布式类型:sagemaker_data_parallel
  • 设备数量:8
  • 总训练批大小:256
  • 总评估批大小:256
  • 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
  • 学习率调度器类型:线性
  • 学习率调度器预热步数:500
  • 训练轮数:4
  • 混合精度训练:Native AMP

训练结果

Training Loss Epoch Step Validation Loss Accuracy
0.3688 1.0 264 0.1444 0.9564
0.1529 2.0 528 0.1502 0.9518
0.107 3.0 792 0.1388 0.9530
0.0666 4.0 1056 0.1400 0.9644

框架版本

  • Transformers 4.17.0
  • PyTorch 1.10.2+cu113
  • Datasets 1.18.4
  • Tokenizers 0.11.6