数据集:
Anthropic/hh-rlhf
此存储库提供了两种不同类型的数据:
免责声明:数据(特别是无害性偏好数据和红队数据)可能包含令人不悦或沮丧的内容。主题包括但不限于歧视性语言以及虐待、暴力、自残、剥削和其他可能令人不悦的主题讨论。请根据个人风险承受能力处理数据。数据仅用于研究目的,尤其是能够使模型更少有害的研究。数据中表达的观点不代表Anthropic或其员工的观点。如上所述,这些数据不适合用于训练对话代理,因为这可能导致有害的模型行为。
以下对每个数据集进行了进一步描述。
这些数据在论文 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 中进行了描述。如果您发现数据有用,请引用该论文。数据格式非常简单 - jsonl 文件的每一行都包含一对文本,一个是“已选择的”文本,一个是“已拒绝的”文本。
对于有益性,数据被分为三个批次的训练/测试集:从我们的基础模型(上下文提炼的52B语言模型)中获取,通过拒绝采样(主要使用最优的16个采样)针对早期的偏好模型获得,并在迭代“在线”过程中进行样本采集。
对于无害性,数据仅针对我们的基础模型进行收集,但格式相同。
关于数据收集过程和群众工作者人口的详细信息可以在论文中找到,特别是第2节和附录D中。
这些数据在论文 Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned 中进行了描述。如果您发现数据有用,请引用该论文。从高层次上讲,可以通过检查这些数据来了解成功的红队对抗尝试。
关于数据和数据收集程序的详细信息可以在论文的附录数据表中找到。
jsonl 文件的每一行包含一个字典,其中包含以下字段:
上述每个数据集位于单独的子目录中。要加载单个子集,请使用 load_dataset() 函数的 data_dir 参数,如下所示:
from datasets import load_dataset # Load all helpfulness/harmless subsets (share the same schema) dataset = load_dataset("Anthropic/hh-rlhf") # Load one of the harmless subsets dataset = load_dataset("Anthropic/hh-rlhf", data_dir="harmless-base") # Load the red teaming subset dataset = load_dataset("Anthropic/hh-rlhf", data_dir="red-team-attempts")
原始作者在GitHub上托管该数据集,地址在此处: https://github.com/anthropics/hh-rlhf 您可以发送询问邮件至:redteam@anthropic.com