英文

distilgpt2-tiny-conversational

该模型是基于对《维基百科导向对话》进行解析的版本对 distilgpt2 进行微调的结果。它是为配合 ai-msgbot 的人物设定alpha/beta框架而设计的。在评估集上取得以下结果:

  • 损失:2.2461

模型描述

  • 是用于对话的基本对话模型。可以用作聊天机器人。
  • 查看 simple demo here 以获取更多信息。

预期用途和限制

  • 使用目的是为了与 ai-msgbot 集成
  • 主要的具体信息是,该模型生成两个实体之间的完整对话,即person alpha和person beta。这些实体名称在功能上用作自定义标记,用于提取一条回复结束和另一条回复开始的位置。

训练和评估数据

训练程序

  • deepspeed + huggingface trainer,示例笔记本在 ai-msgbot 内。

训练超参数

使用了以下超参数进行训练:

  • 学习率: 2e-05
  • 训练批大小: 32
  • 评估批大小: 32
  • 种子: 42
  • 分布式类型: 多GPU
  • 梯度累积步数: 4
  • 总训练批大小: 128
  • 优化器: Adam,beta=(0.9, 0.999),epsilon=1e-08
  • 学习率调度程序类型: 余弦
  • 学习率调度程序预热比例: 0.05
  • 训练轮数: 30

训练结果

Training Loss Epoch Step Validation Loss
No log 1.0 418 2.7793
2.9952 2.0 836 2.6914
2.7684 3.0 1254 2.6348
2.685 4.0 1672 2.5938
2.6243 5.0 2090 2.5625
2.5816 6.0 2508 2.5332
2.5816 7.0 2926 2.5098
2.545 8.0 3344 2.4902
2.5083 9.0 3762 2.4707
2.4793 10.0 4180 2.4551
2.4531 11.0 4598 2.4395
2.4269 12.0 5016 2.4238
2.4269 13.0 5434 2.4102
2.4051 14.0 5852 2.3945
2.3777 15.0 6270 2.3848
2.3603 16.0 6688 2.3711
2.3394 17.0 7106 2.3613
2.3206 18.0 7524 2.3516
2.3206 19.0 7942 2.3398
2.3026 20.0 8360 2.3301
2.2823 21.0 8778 2.3203
2.2669 22.0 9196 2.3105
2.2493 23.0 9614 2.3027
2.2334 24.0 10032 2.2930
2.2334 25.0 10450 2.2852
2.2194 26.0 10868 2.2754
2.2014 27.0 11286 2.2695
2.1868 28.0 11704 2.2598
2.171 29.0 12122 2.2539
2.1597 30.0 12540 2.2461

框架版本

  • Transformers 4.16.1
  • Pytorch 1.10.0+cu111
  • Tokenizers 0.11.0