PIT:一种让大型语言模型自动提升质量的隐式自我提升框架

2023年10月07日 由 neo 发表 371 0

大型语言模型(LLM)在各种复杂的任务上取得了最先进的结果,比如数学推理、摘要、对话、模式归纳和领域特定的问题解决。LLM的成功取决于它们遵循指令和与人类偏好保持一致的能力。然而,它们也有局限性,可能会产生不正确的信息、推理错误或无用的内容。

GettyImages-1026660906

为了提高LLM的性能,已经提出了各种方法,越来越多地关注使LLM能够自我提高响应质量。传统上,提高LLM的性能涉及通过人工标注收集更多样化和高质量的训练数据,这是一个资源密集的过程,特别是对于专业领域。基于提示的方法因为它们的有效性、效率和便利性而受到欢迎。然而,这些方法通常需要详细的评分标准作为输入,这可能是具有挑战性和昂贵的,特别是对于复杂的改进目标。

针对这个问题,伊利诺伊大学厄巴纳-香槟分校和谷歌的研究人员提出了“隐式自我改进(PIT)框架”,它允许LLM从人类偏好数据中学习改进目标,而不需要显式的评分标准。PIT利用偏好数据来训练奖励模型,消除了额外的人力或数据收集的需要。PIT的核心思想是重新制定人类反馈强化学习(RLHF)的训练目标。PIT不是针对给定输入最大化响应质量,而是最大化响应和参考响应之间的质量差距,更紧密地与人类偏好保持一致。

研究人员在真实世界和合成数据集上进行了实验,评估了PIT与基于提示方法的性能。他们的结果表明,PIT在提高响应质量方面显著优于提示策略。

PIT对RLHF训练目标的重新制定关注于缩小模型和参考响应之间的质量差距。这种方法使得PIT能够在没有显式评分标准的情况下迭代地改进响应。在真实世界数据集和合成数据上的实验表明了PIT相对于基于提示方法的优越性,突出了它在提高LLM响应质量方面的有效性。

PIT优于依赖提示进行自我改进的Self-Refine方法。与Self-Refine相比,改进程度根据评估方法(例如,人类评估、第三方语言模型、奖励模型)而有所不同,但PIT在实验中始终表现更好。

该研究还探讨了温度设置对自我改进方法的影响,表明低温与PIT产生更好的结果。相反,高温更适合Self-Refine。此外,该研究还研究了课程强化学习和改进迭代次数的重要性,强调了在实际应用中仔细考虑停止条件的必要性。

总之,隐式自我改进PIT框架为提高大型语言模型的性能提供了一个有前景的途径。通过从人类偏好数据中学习改进目标,PIT解决了传统提示方法的局限性,并展示了它在不同数据集和条件下提高LLM响应质量的有效性。

文章来源:https://www.marktechpost.com/2023/10/06/how-can-we-elevate-the-quality-of-large-language-models-meet-pit-an-implicit-self-improvement-framework/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消