数据集:

HuggingFaceH4/instruct_me

英文

Instruct Me 数据集卡片

数据集概述

Instruct Me 是一个包含人类用户和 AI 助手之间提示和指令对话的数据集。这些提示来自于(提示,补全)对在 Helpful Instructions dataset 中。目标是训练一个可以“健谈”的语言模型,能够回答人类用户可能给 AI 助手下达的问题或任务。

支持的任务和排行榜

我们提供了三个配置文件,可用于训练 RLHF 模型:

  • instruction_tuning
  • 用于指令调整的单轮用户/机器人对话。

  • reward_modeling
  • 提示生成模型补全并收集人类偏好数据的数据。

  • ppo
  • 用于使用 PPO 等技术优化指令调整模型的提示生成模型补全。

更新日志

  • 3月6日,2023年:发布 v1.1.0 版本。将 reward_modeling 和 ppo 配置中的文本列更改为 prompt,以确保与我们的其他数据集模式的一致性。
  • 3月5日,2023年:发布 v1.0.0 版本。