英文

legal-french-roberta-base

该模型是从未知的数据集上从头训练的。它在评估集上取得以下结果:

  • 损失值:0.4293

模型描述

需要更多信息

预期用途和限制

需要更多信息

训练和评估数据

需要更多信息

训练过程

训练超参数

训练时使用了以下超参数:

  • 学习率:0.0001
  • 训练批量大小:16
  • 评估批量大小:16
  • 种子:42
  • 分布式类型:tpu
  • 设备数量:8
  • 梯度累积步数:4
  • 总的训练批量大小:512
  • 总的评估批量大小:128
  • 优化器:Adam,betas=(0.9,0.999),epsilon=1e-08
  • 学习率调度器类型:余弦
  • 学习率调度器预热比例:0.05
  • 训练步数:1000000

训练结果

Training Loss Epoch Step Validation Loss
0.8649 0.05 50000 0.7819
0.7852 0.1 100000 0.6027
0.5898 1.02 150000 0.5842
0.6136 1.07 200000 0.5343
0.6135 1.12 250000 0.5461
0.5804 2.03 300000 0.5295
0.5602 2.08 350000 0.5120
0.5446 2.13 400000 0.4904
0.5414 3.05 450000 0.4853
0.5765 3.1 500000 0.4788
0.6903 4.01 550000 0.4597
0.6149 4.06 600000 0.4556
0.5649 4.11 650000 0.4543
0.6449 5.03 700000 0.4489
0.6425 5.08 750000 0.4386
0.6263 5.13 800000 0.4344
0.6035 6.05 850000 0.4317
0.607 6.1 900000 0.4332
0.5899 7.01 950000 0.4321
0.5751 7.06 1000000 0.4293

框架版本

  • Transformers 4.20.1
  • Pytorch 1.12.0+cu102
  • Datasets 2.8.0
  • Tokenizers 0.12.1