英文

distilroberta-finetuned-financial-text-classification

该模型是 distilroberta-base 在 sentence_50Agree financial-phrasebank + Kaggle Dataset 上进行微调的版本,这是一个由4840条金融新闻组成的数据集,按情感进行分类(负面、中性、正面)。Kaggle数据集包括Covid-19情感数据,可以在这里找到: sentiment-classification-selflabel-dataset 。模型在评估集上达到以下结果:

  • 损失:0.4463
  • F1值:0.8835

模型描述

该模型用于确定给定文本的金融情感。考虑到类别标签不平衡的分布,权重已进行调整,以关注采样较少的标签,这应该提高整体性能。添加了Covid数据集以丰富模型,因为大多数模型没有经过Covid-19对收益或市场的影响进行训练。

训练超参数

在训练过程中使用了以下超参数:

  • 学习率:2e-05
  • 训练批次大小:64
  • 评估批次大小:64
  • 种子:42
  • 优化器:Adam,beta=(0.9,0.999),epsilon=1e-08
  • 学习率调度器类型:linear
  • 训练周期数:10
  • 混合精度训练:Native AMP

训练结果

Training Loss Epoch Step Validation Loss F1
0.7309 1.0 72 0.3671 0.8441
0.3757 2.0 144 0.3199 0.8709
0.3054 3.0 216 0.3096 0.8678
0.2229 4.0 288 0.3776 0.8390
0.1744 5.0 360 0.3678 0.8723
0.1436 6.0 432 0.3728 0.8758
0.1044 7.0 504 0.4116 0.8744
0.0931 8.0 576 0.4148 0.8761
0.0683 9.0 648 0.4423 0.8837
0.0611 10.0 720 0.4463 0.8835

框架版本

  • Transformers 4.15.0
  • Pytorch 1.10.0+cu111
  • Datasets 1.18.0
  • Tokenizers 0.10.3