人类反馈已被证明在训练机器学习算法中至关重要。早在2019年,IBM的研究总监就强调,虽然强化学习是一种很好的学习方法,但由于它严重依赖试错,所以仅依靠这种方法可能会很有挑战性。
除了是谷歌DeepMind最喜欢的训练其流行算法(如AlphaGo及其最新迭代AlphaStar)的技术外,基于人类反馈的强化学习(RLHF)在将大型语言模型(LLM)与人类偏好相匹配方面特别有效。
此外,大多数大型语言模型都是使用奖励方法训练的,包括OpenAI的ChatGPT。甚至Meta AI的框架PyTorch最近也升级了其RLHF元件,让开发人员可以在有限的RL知识下轻松构建RLHF训练循环。
然而,一个主要障碍在于收集高质量的人类偏好标签。这就是谷歌研究提出的一种新框架强化学习与AI反馈(RLAIF)的用武之地,它在训练模型时减少了对人类干预的依赖。研究人员发现,两者表现出相似的性能,RLHF略有优势,但并不显著。
ChatGPT尚未蓬勃发展的领域之一是总结文档。自聊天机器人首次亮相以来,研究人员一直在探索通过其更强大的付费版本生成简洁摘要的新方法。
有趣的是,在谷歌的最新研究中发现,人类评估者71%的时间更喜欢RLAIF,73%的时间更偏爱RLHF。然而,在直接的比较中,两人的胜率是50%。此外,两种方法的总结都优于人类书面参考总结,RLAIF为79%,RLHF为80%。
同时,需要考虑的一个重要因素是,这两种方法往往比监督微调(SFT)策略产生更长的摘要。这可能有助于感知到生成结果质量的提高。研究人员进行了进一步的分析,结果显示,即使在调整了长度后,无论有没有人工智能反馈,这两种方法的表现都以相似幅度优于SFT策略。
虽然研究团队继续努力解决摘要问题,但无需人工注释的RLAIF似乎是RLHF的可行替代方案。然而,研究人员承认,有必要对更广泛的自然语言处理(NLP)任务进行进一步的实验,以验证这些发现,他们打算在未来的研究中探索这条道路。
就在几周前,谷歌DeepMind提出了另一种用于语言建模的新算法,称为强化自我训练(ReST)。它通过让语言模型用一个初始命令构建自己的策略,将人类从循环中移除。虽然ReST在各种生成性学习布局中都有应用,但它的专长在于机器翻译。
将ReST与在线RL进行比较,结果表明,当只使用一个“Grow”步骤时,两者表现相当。
然而,当ReST包含多个“Improve”步骤时,它在更高的奖励方面显著超过了在线RL。此外,该研究观察到,在线RL在验证集上的BLEU得分下降了8分,这暗示了与奖励操纵相关的潜在问题。
相比之下,ReST证明了在不影响其他性能指标的情况下提高奖励模型分数的能力,这表明与在线RL方法相比,它可能会征收更低的“调整税”。
DeepMind的首席执行官Demis Hassabis表示,这些研究进展是在双子计划(Project Gemini)之后出现的。
据报道,该模型目前正在通过该公司的开创性技术——强化学习进行培训。尽管许多官方细节尚未公布,但人工智能强化学习预计将在培训过程中发挥巨大作用。
最近的研究表明,该公司有兴趣将人工智能与强化学习结合起来,我们迫不及待地想看看研究实验室里在做什么。