数据集:
HuggingFaceH4/instruct_me
Instruct Me 是一个包含人类用户和 AI 助手之间提示和指令对话的数据集。这些提示来自于(提示,补全)对在 Helpful Instructions dataset 中。目标是训练一个可以“健谈”的语言模型,能够回答人类用户可能给 AI 助手下达的问题或任务。
我们提供了三个配置文件,可用于训练 RLHF 模型:
用于指令调整的单轮用户/机器人对话。
提示生成模型补全并收集人类偏好数据的数据。
用于使用 PPO 等技术优化指令调整模型的提示生成模型补全。