数据集:
openai/summarize_from_feedback
预印本库:
arxiv:2009.01325在这个数据集中,使用人类反馈训练了一个奖励模型。然后,利用该奖励模型训练了一个摘要模型以符合人类偏好。这是用于奖励建模的人类反馈数据集。该数据集分为"比较"和"轴"两个部分。在"比较"部分,人类标注员被要求在两个摘要中选择最佳的一个。在"轴"部分,人类标注员对一个摘要的质量进行了李克特量表评分。"比较"部分只有训练集和验证集,而"轴"部分只有测试集和验证集。
文章中用于训练奖励模型的摘要来自TL;DR数据集。额外的验证和测试数据来自TL;DR数据集,CNN文章和Daily Mail文章。
详细信息请参阅 here 存储库。
https://arxiv.org/abs/2009.01325
@inproceedings{stienon2020learning, author = {Nisan Stiennon and Long Ouyang and Jeff Wu and Daniel M. Ziegler and Ryan Lowe and Chelsea Voss and Alec Radford and Dario Amodei and Paul Christiano}, title = {Learning to summarize from human feedback}, booktitle = {NeurIPS}, year = 2020, }
数据集添加到Hugging Face Hub,得到 @Tristan 的帮助。