bart-base-open-instructiongen-v1
生成指令给LLMs而不是从文本中生成问题!
模型描述
这个模型是在 hakurei/open-instruct-v1 数据集上对
facebook/bart-base
进行微调的版本。
- 这个模型只为任意文本生成指令(不提供输入,名称中带有 w-inputs 的模型提供输入)。
- 在训练时没有验证集划分,所以这里没有统计数据。
- 将这个模型与
pszemraj/bart-base-instructiongen
的性能进行比较,可以部分说明生成"稳健"指令生成器所需的数据集规模。
- 如果你注意到任何趋势,欢迎与我联系!很愿意听到您的看法。
训练和评估数据
请参阅 hakurei/open-instruct-v1 。该模型在数据集的"反向"上进行了训练,即将输出列作为输入,并训练用于预测指令。
训练过程
训练超参数
训练时使用了以下超参数:
- 学习率:8e-05
- 训练批大小:16
- 评估批大小:8
- 种子:42
- 分布式类型:多GPU
- 梯度累积步数:2
- 总训练批大小:32
- 优化器:使用 betas=(0.9,0.999) 和 epsilon=1e-08 的 Adam
- 学习率调度器类型:cosine
- 学习率调度器预热比例:0.03
- 训练时期数:2.0
训练结果
框架版本
- Transformers 4.28.0.dev0
- Pytorch 2.0.0+cu118
- Datasets 2.9.0
- Tokenizers 0.12.1