PIT：一种让大型语言模型自动提升质量的隐式自我提升框架

2023年10月07日由 neo 发表 687 0

大型语言模型（LLM）在各种复杂的任务上取得了最先进的结果，比如数学推理、摘要、对话、模式归纳和领域特定的问题解决。LLM的成功取决于它们遵循指令和与人类偏好保持一致的能力。然而，它们也有局限性，可能会产生不正确的信息、推理错误或无用的内容。

GettyImages-1026660906

为了提高LLM的性能，已经提出了各种方法，越来越多地关注使LLM能够自我提高响应质量。传统上，提高LLM的性能涉及通过人工标注收集更多样化和高质量的训练数据，这是一个资源密集的过程，特别是对于专业领域。基于提示的方法因为它们的有效性、效率和便利性而受到欢迎。然而，这些方法通常需要详细的评分标准作为输入，这可能是具有挑战性和昂贵的，特别是对于复杂的改进目标。

针对这个问题，伊利诺伊大学厄巴纳-香槟分校和谷歌的研究人员提出了“隐式自我改进（PIT）框架”，它允许LLM从人类偏好数据中学习改进目标，而不需要显式的评分标准。PIT利用偏好数据来训练奖励模型，消除了额外的人力或数据收集的需要。PIT的核心思想是重新制定人类反馈强化学习（RLHF）的训练目标。PIT不是针对给定输入最大化响应质量，而是最大化响应和参考响应之间的质量差距，更紧密地与人类偏好保持一致。

研究人员在真实世界和合成数据集上进行了实验，评估了PIT与基于提示方法的性能。他们的结果表明，PIT在提高响应质量方面显著优于提示策略。

PIT对RLHF训练目标的重新制定关注于缩小模型和参考响应之间的质量差距。这种方法使得PIT能够在没有显式评分标准的情况下迭代地改进响应。在真实世界数据集和合成数据上的实验表明了PIT相对于基于提示方法的优越性，突出了它在提高LLM响应质量方面的有效性。

PIT优于依赖提示进行自我改进的Self-Refine方法。与Self-Refine相比，改进程度根据评估方法（例如，人类评估、第三方语言模型、奖励模型）而有所不同，但PIT在实验中始终表现更好。

该研究还探讨了温度设置对自我改进方法的影响，表明低温与PIT产生更好的结果。相反，高温更适合Self-Refine。此外，该研究还研究了课程强化学习和改进迭代次数的重要性，强调了在实际应用中仔细考虑停止条件的必要性。

总之，隐式自我改进PIT框架为提高大型语言模型的性能提供了一个有前景的途径。通过从人类偏好数据中学习改进目标，PIT解决了传统提示方法的局限性，并展示了它在不同数据集和条件下提高LLM响应质量的有效性。

文章来源：https://www.marktechpost.com/2023/10/06/how-can-we-elevate-the-quality-of-large-language-models-meet-pit-an-implicit-self-improvement-framework/

标签：

LLM 人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Synapse CoR：简化大型语言模型的使用

下一篇简化Transformers：使用你理解的单词进行最先进的NLP—第1部分—输入篇

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来