数据集:

openai/webgpt_comparisons

预印本库:

arxiv:2112.09332
英文

WebGPT Comparisons 数据集卡片

数据集描述

WebGPT paper 中,作者使用人类反馈训练了一个奖励模型。他们使用这个奖励模型训练了一个长篇问答模型,以符合人类偏好。这是WebGPT项目结束时被标记为适合奖励建模的所有比较的数据集。总共有19,578个比较。

数据集中的每个示例包含一个问题的模型答案对以及相关的元数据。每个答案都有来自人类的偏好分数,可以用来确定哪个答案更好。总体而言,一个示例具有以下字段:

  • question:问题的文本,包括从中提取问题的数据集的名称和唯一ID。
  • quotes_0:模型在浏览 answer_0 时找到的摘录,以及找到摘录的页面的标题,标题由页面的HTML标题和域名构成。
  • answer_0:模型使用 quotes_0 组合而成的最终答案。
  • tokens_0:在剧集的最后一步中,将会给模型一个前缀,用来创建 answer_0,然后给出模型或人类的补充。前缀由问题和引文构成,进行了一些截断,补充就是答案。两者都使用了GPT-2的tokenizer进行分词。将前缀和补充拼接在一起是用于奖励建模的输入。
  • score_0:答案_0 相对于答案_1 的偏好强度,以-1到1的数字表示。它与 score_1 相加等于0,如果分数是正数,则表示答案_0 是首选项。对于奖励建模,我们将分数为0视为软性50%的标签,将所有其他分数视为硬性标签(仅使用它们的符号)。
  • quotes_1:与 quotes_0 对应的部分。
  • answer_1:与 answer_0 对应的部分。
  • tokens_1:与 tokens_0 对应的部分。
  • score_1:与 score_0 对应的部分。

这些信息可以在WebGPT论文的附录K中找到。

引用信息

https://arxiv.org/abs/2112.09332

@inproceedings{nakano2021webgpt,
  author = {Reiichiro Nakano and Jacob Hilton and Suchir Balaji and Jeff Wu and Long Ouyang and Christina Kim and Christopher Hesse and Shantanu Jain and Vineet Kosaraju and William Saunders and Xu Jiang and Karl Cobbe and Tyna Eloundou and Gretchen Krueger and Kevin Button and Matthew Knight and Benjamin Chess and John Schulman},
  title = {WebGPT: Browser-assisted question-answering with human feedback},
  booktitle = {arXiv},
  year = 2021,
}

数据集由 @Tristan @natolambert 添加至 Hugging Face Hub。