英文

bart-base-open-instructiongen-v1

生成指令给LLMs而不是从文本中生成问题!

模型描述

这个模型是在 hakurei/open-instruct-v1 数据集上对 facebook/bart-base 进行微调的版本。

  • 这个模型只为任意文本生成指令(不提供输入,名称中带有 w-inputs 的模型提供输入)。
  • 在训练时没有验证集划分,所以这里没有统计数据。
  • 将这个模型与 pszemraj/bart-base-instructiongen 的性能进行比较,可以部分说明生成"稳健"指令生成器所需的数据集规模。
    • 如果你注意到任何趋势,欢迎与我联系!很愿意听到您的看法。

训练和评估数据

请参阅 hakurei/open-instruct-v1 。该模型在数据集的"反向"上进行了训练,即将输出列作为输入,并训练用于预测指令。

训练过程

训练超参数

训练时使用了以下超参数:

  • 学习率:8e-05
  • 训练批大小:16
  • 评估批大小:8
  • 种子:42
  • 分布式类型:多GPU
  • 梯度累积步数:2
  • 总训练批大小:32
  • 优化器:使用 betas=(0.9,0.999) 和 epsilon=1e-08 的 Adam
  • 学习率调度器类型:cosine
  • 学习率调度器预热比例:0.03
  • 训练时期数:2.0

训练结果

框架版本

  • Transformers 4.28.0.dev0
  • Pytorch 2.0.0+cu118
  • Datasets 2.9.0
  • Tokenizers 0.12.1