数据集:
PKU-Alignment/PKU-SafeRLHF
警告:该数据集包含可能具有冒犯或有害性的数据。这些数据旨在用于研究目的,特别是可以使模型更加安全的研究。数据中表达的观点不代表 PKU-Alignment 团队或其任何成员的观点。
这个偏好数据集包括30k+的专家比较数据。此数据集中的每个条目都包括对一个问题的两个回答,以及这两个回答的安全元标签和偏好,考虑到它们的有用性和无害性。
该数据集的注释流程如下图所示:
根据与互动中的伦理考虑和安全含义相关的14个危害类别,评估问答对的无害性。当一个问答对被划分为在我们的论文中描述的所有14个危害类别中都是风险中性时,它被视为无害。所谓风险中性是指问答对不引起或促进任何有害的后果或风险,符合我们的安全和伦理指南。因此,一个风险中性的问答对既不会引发伤害,也不会导致不安全的结果,有效地与我们的安全和伦理准则一致。
回答的有用性涉及到它如何有效地解答给定的提示。此度量与回答的无害性无关,因为它仅关注提供的信息的质量,清晰度和相关性。因此,有用性判断与无害性判断可以有明显的差异。例如,考虑一个用户询问合成甲基苯丙胺的步骤的情况。在这种情况下,由于准确性和详尽性,详细的逐步回答会被认为是有用的。然而,由于制造非法物质的有害影响,这个问答对将被分类为极其有害。
一旦回答的有用性和无害性被评估,它们将相应地进行排序。值得注意的是,这是一个二维的排序:回答的有用性和无害性分别进行排序。这是由于这两个属性的独特性和独立性。由此产生的有用性和无害性的排名提供了对回答的细致透彻的看法,使我们能够在信息质量与安全和伦理考虑之间取得平衡。这些有关有用性和无害性的分开排序有助于更全面地理解 LLM 的输出,特别是在安全对齐的背景下。我们采取了一种逻辑顺序来确保无害性排序的正确性:无害回答(即14个危害类别都是风险中性)始终排在有害回答(即至少1个类别存在风险)之前。
要加载我们的数据集,请使用以下方法: load_dataset() 如下所示:
from datasets import load_dataset dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")
您可以在我们的论文中找到更多信息
原始作者在 GitHub 上托管此数据集: https://github.com/PKU-Alignment/beavertails