大型语言模型(LLMs)在诸多任务中已展现出惊人的熟练度,但在执行多步推理时仍面临重大挑战。特别是在数学问题解决、代理控制以及网络导航等复杂场景中,这一限制尤为突出。传统的增强学习(RL)方法,如Proximal Policy Optimization(PPO),虽已应用于此问题的解决,但高昂的计算和数据成本使其实用性受限。同样,Direct Preference Optimization(DPO)等方法虽能有效对齐模型与人类偏好,但在处理多步推理任务时却遭遇困境。DPO依赖于成对的偏好数据和统一的标记处理,这在罕见奖励情况下削弱了其有效分配奖励的能力。这些障碍进一步凸显了开发更具针对性和高效性的解决方案,以加强LLM推理能力的迫切需求。
针对现有方法的不足,OREO(离线推理优化)应运而生。这是一种专门设计的离线RL方法,旨在解决LLMs在多步推理方面的挑战。OREO由加州大学圣地亚哥分校、清华大学、Salesforce研究部门和西北大学的研究人员共同研发,基于最大熵强化学习的见解构建而成。该方法通过优化软贝尔曼方程,同时训练策略模型和值函数,从而消除了对成对偏好数据的依赖,使非配对且奖励稀疏的数据集得以利用。此外,OREO具备精确的推理轨迹信用分配能力,这在成功依赖于少数关键步骤时尤为重要。该框架还可扩展至迭代探索设置,并在测试期间通过树搜索结合学习到的值函数,进一步增强推理能力。
OREO的核心创新在于其优化软贝尔曼方程以同时训练策略模型和值模型的方法。这一策略确保了推理步骤中的信用分配准确无误,从而克服了DPO等方法的局限性。同时,OREO提供了步级和响应级目标,为不同粒度的推理任务提供了灵活性。在测试推理时,值函数支持波束搜索等高级搜索技术,以提高准确性。与监督微调或拒绝采样等基线方法相比,OREO擅长从失败轨迹中学习,提高模型的鲁棒性和适应性。这种从失败中汲取经验的能力,使其在迭代多步推理任务中展现出独特价值。
OREO的性能已在GSM8K、MATH等数学推理基准测试,以及ALFWorld等代理控制基准测试中得到了严格评估。结果显示,在GSM8K上,使用15亿参数模型的OREO相较于SFT,准确性提升了5.2%;在MATH上则提升了10.5%,准确率达到52.5%(未使用扩充问题集)。在ALFWorld中,OREO在未知环境下的性能相对提高了17.7%,凸显了其出色的泛化能力。迭代训练进一步放大了OREO的有效性,显示出在多次迭代中准确性的持续提升。相比之下,拒绝采样等方法则呈现出收益递减的趋势。OREO通过吸取失败尝试的经验,不断提升性能。使用OREO值函数的测试时间搜索在MATH数据集上相较于贪婪解码,准确率提高了最多17.9%,进一步证明了其对推理质量的影响。
综上所述,OREO通过离线RL提供了一种实用且有效的方法,显著增强了LLMs的多步推理能力。它解决了现有方法的局限性,提供了一种可扩展的方法来改善推理能力。OREO的信用分配、迭代训练和测试时搜索的整合,使其成为应对复杂推理挑战的多功能工具。研究结果展示了OREO在需要复杂问题解决的各个领域的应用潜力,为推动实现更深层次推理的AI系统的演变做出了重要贡献。