n3wtou/mt5-small-finedtuned-4-swahili
此模型是基于csebuetnlp/xlsum数据集fine-tuned的版本的
google/mt5-small
模型。在评估集上取得以下结果:
- 训练损失:2.4419
- 验证损失:2.4809
- Epoch:9
模型描述
需要更多信息
预期用途和限制
需要更多信息
训练和评估数据
需要更多信息
训练过程
训练超参数
训练过程中使用了以下超参数:
- 优化器:{'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'WarmUp', 'config': {'initial_learning_rate': 0.0003, 'decay_schedule_fn': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 0.0003, 'decay_steps': 19900, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}, 'passive_serialization': True}, 'warmup_steps': 100, 'power': 1.0, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.001}
- training_precision: mixed_float16
训练结果
Train Loss
|
Validation Loss
|
Epoch
|
5.6636
|
2.9818
|
0
|
3.7789
|
2.7822
|
1
|
3.3841
|
2.6840
|
2
|
3.1496
|
2.6238
|
3
|
2.9656
|
2.5816
|
4
|
2.8134
|
2.5522
|
5
|
2.6914
|
2.5315
|
6
|
2.5935
|
2.4980
|
7
|
2.5056
|
2.4764
|
8
|
2.4419
|
2.4809
|
9
|
框架版本
- Transformers 4.30.2
- TensorFlow 2.12.0
- Datasets 2.12.0
- Tokenizers 0.13.3