数据集:

openai/summarize_from_feedback

预印本库:

arxiv:2009.01325
英文

Summarize from Feedback 数据集卡片

数据集描述

在这个数据集中,使用人类反馈训练了一个奖励模型。然后,利用该奖励模型训练了一个摘要模型以符合人类偏好。这是用于奖励建模的人类反馈数据集。该数据集分为"比较"和"轴"两个部分。在"比较"部分,人类标注员被要求在两个摘要中选择最佳的一个。在"轴"部分,人类标注员对一个摘要的质量进行了李克特量表评分。"比较"部分只有训练集和验证集,而"轴"部分只有测试集和验证集。

文章中用于训练奖励模型的摘要来自TL;DR数据集。额外的验证和测试数据来自TL;DR数据集,CNN文章和Daily Mail文章。

详细信息请参阅 here 存储库。

引用信息

https://arxiv.org/abs/2009.01325

@inproceedings{stienon2020learning,
  author = {Nisan Stiennon and Long Ouyang and Jeff Wu and Daniel M. Ziegler and Ryan Lowe and Chelsea Voss and Alec Radford and Dario Amodei and Paul Christiano},
  title = {Learning to summarize from human feedback},
  booktitle = {NeurIPS},
  year = 2020,
}

数据集添加到Hugging Face Hub,得到 @Tristan 的帮助。