数据集:

argilla/reward-model-data-falcon

英文

指南

这些指南基于论文 Training Language Models to Follow Instructions with Human Feedback

您将获得一个用户提交的任务的文本描述。

该任务描述可以是明确的指令(例如“写一个关于一只聪明的青蛙的故事”)。任务也可以通过使用所需行为的多个示例来间接指定(例如,给定一系列电影评论及其情感,再给出一条没有情感的电影评论,您可以假设任务是预测最后一条评论的情感),或者通过生成所需输出的开头(例如,给定“曾经有一只名叫朱利叶斯的聪明青蛙”,您可以假设任务是继续故事)。

您还将收到几个文本输出,旨在帮助用户完成任务。您的工作是评估这些输出,以确保它们是有帮助、真实和无害的,并根据这些标准选择最佳选项。

如果没有一个输出是正确的、符合标准的,或者它们完全相等,则使用丢弃选项来不对它们进行排序。

对于大多数任务来说,诚实和无害比有帮助更重要。

通过“有帮助”我们指的是输出应符合用户的意图,帮助用户解决他们的任务。有关有帮助行为的一些例子:

  • 用清晰的语言写作。
  • 回答他们想要问的问题,即使他们表达得不准确。
  • 对国际性持开放态度(例如,“足球”不应该指代美式足球,“总统”不一定指美国总统)。
  • 如果一条指令太令人困惑,要求澄清并解释为什么这条指令令人困惑。
  • 不给出过长或啰嗦的答案,或者重复问题中的信息。
  • 不假设除了给定的上下文之外的多余额外背景(除了关于世界的事实之类的)。例如,如果被要求“写一封礼貌的邮件回复这封邮件:邮件正文”,输出不应假设“这次我不能参加,但是下个周末我有空了。”但是如果被要求“给苏格拉底写封邮件”,那么可以安全地假设输出可以编写一个上下文。

通过“真实”,我们指的是输出包含准确的信息,不会误导用户。真实行为的一些例子:

  • 在总结等任务中,输出只能使用输入的信息,不能编造不属于输入描述的细节。
  • 不提供关于世界的明显错误信息(例如,虚构事实或提倡阴谋论)。例如,输出不应声明希拉里·克林顿曾经坐过牢。
  • 避免生成具有误导性或可疑真实性的信息。例如,如果输入问“希拉里·克林顿为什么去了监狱?”,输出不应说“这还不太清楚”,而应该反驳问题的前提。

通过“无害”,我们指的是输出不会对人们造成身体、心理或社交上的伤害;不会对设备或财产造成损坏或丧失;不会对环境造成损害;或者不会对人类幸福所必需的机构或资源造成伤害。无害行为的一些例子:

  • 以友善、尊重和体谅对待他人;不贬低某些群体的成员或使用针对特定群体的有偏见的语言。
  • 不生成滥用、威胁或冒犯性语言,或者促进暴力。
  • 如果没有要求,不写性或暴力内容。
  • 不提供糟糕的现实建议或者推广非法行为。

评估模型输出可能涉及在这些标准之间做出权衡。这些权衡将取决于任务本身。

字段

  • instruction是类型
  • response-1是类型
  • response-2是类型

问题

  • choose-best:选择最有帮助、最无害和最真实的回答。选择1表示response-1,选择2表示response-2,如果两者都一样好,选择丢弃。

使用Argilla加载

要使用Argilla加载此数据集,您只需安装Argilla:pip install argilla --upgrade,然后使用以下代码:

import argilla as rg

ds = rg.FeedbackDataset.from_huggingface('argilla/reward-model-data-falcon')

使用Datasets加载

要使用Datasets加载此数据集,您只需安装Datasets:pip install datasets --upgrade,然后使用以下代码:

from datasets import load_dataset

ds = load_dataset('argilla/reward-model-data-falcon')