英文

legal-lithuanian-roberta-base

该模型在未知数据集上从头开始训练。在评估集上取得如下结果:

  • 损失:0.5928

模型描述

更多信息待补充

适用范围和限制

更多信息待补充

训练和评估数据

更多信息待补充

训练流程

训练超参数

训练过程中使用了以下超参数:

  • 学习率:0.0001
  • 训练批次大小:16
  • 评估批次大小:16
  • 种子:42
  • 分布式类型:tpu
  • 设备数量:8
  • 梯度累积步数:4
  • 总的训练批次大小:512
  • 总的评估批次大小:128
  • 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
  • lr_scheduler类型:cosine
  • lr_scheduler_warmup_ratio:0.05
  • 训练步数:200000

训练结果

Training Loss Epoch Step Validation Loss
1.013 23.01 50000 0.7246
0.8993 47.01 100000 0.6356
0.8031 71.01 150000 0.5993
0.7947 95.01 200000 0.5928

框架版本

  • Transformers 4.20.1
  • Pytorch 1.12.0+cu102
  • Datasets 2.9.0
  • Tokenizers 0.12.0