数据集:
openai/webgpt_comparisons
预印本库:
arxiv:2112.09332在 WebGPT paper 中,作者使用人类反馈训练了一个奖励模型。他们使用这个奖励模型训练了一个长篇问答模型,以符合人类偏好。这是WebGPT项目结束时被标记为适合奖励建模的所有比较的数据集。总共有19,578个比较。
数据集中的每个示例包含一个问题的模型答案对以及相关的元数据。每个答案都有来自人类的偏好分数,可以用来确定哪个答案更好。总体而言,一个示例具有以下字段:
这些信息可以在WebGPT论文的附录K中找到。
https://arxiv.org/abs/2112.09332
@inproceedings{nakano2021webgpt, author = {Reiichiro Nakano and Jacob Hilton and Suchir Balaji and Jeff Wu and Long Ouyang and Christina Kim and Christopher Hesse and Shantanu Jain and Vineet Kosaraju and William Saunders and Xu Jiang and Karl Cobbe and Tyna Eloundou and Gretchen Krueger and Kevin Button and Matthew Knight and Benjamin Chess and John Schulman}, title = {WebGPT: Browser-assisted question-answering with human feedback}, booktitle = {arXiv}, year = 2021, }
数据集由 @Tristan 和 @natolambert 添加至 Hugging Face Hub。