微软推出了"所有思维之物"(XOT),它可以整合外部领域知识,并在语言模型中产生更可靠的推理。
复杂的提示工程方法通常旨在增强大型语言模型的推理能力。从简单的链式思维提示到更复杂的树状思维提示等,它们试图将问题分解成所谓的"思维"。一个思维是一个简单的句子,描述了一个较简单的子问题或结论的结果,以及一个相关联的行动,比如解决一个子问题并得到一个新的结果的简单解决方案。
微软、乔治亚理工学院和华东师范大学的研究人员开发的新方法“所有思维之物”(XOT)旨在通过受AlphaZero启发的外部模块扩展语言模型的能力。XOT利用强化学习和蒙特卡罗树搜索(MCTS)将外部领域知识集成到思维中。研究人员表示,这样做可以使语言模型高效地泛化到未知问题。
AlphaZero受启发的XOT方法外包了思维结构的搜索
具体而言,XOT利用MCTS搜索可以帮助解决问题的思维结构。在训练阶段,MCTS被用于探索特定任务(如谜题)的可能解决方案——思维结构。这个过程包括记录搜索中思维节点的状态、值和访问频率。然后,利用记录的数据通过强化学习训练模型,以预测可能成功的解决路径——消除了为每个问题搜索整个解决树的需要——理想情况下,模型可以推广到游戏中的新问题。
然后,团队将模型与语言模型链接起来,为其提供可以解决语言模型提出的问题的思维结构。在一个协作的过程中,语言模型会审查思维和思维结构,并可以要求修订以提高解决方案的质量。通过使用外部模型,XOT使语言模型不再需要自己探索和评估思维。与其他方法相比,使用外部模型大大减轻了对语言模型的需求。
XOT在测试场景中表现出了飞跃的性能
研究人员在几个具有挑战性的问题解决任务上测试了XOT,包括24点游戏、8-数码游戏和口袋魔方。结果显示,XOT明显优于其他方法,甚至解决了其他方法失败的问题。然而,XOT并没有达到100%的可靠性。
尽管如此,该团队认为XOT框架是一种将外部领域知识集成到语言模型推理中的有希望的方法。他们表示,它在性能、效率和灵活性方面都有所提高,这是其他方法无法实现的组合。
目前尚不清楚微软是否打算在其自己的产品中使用该方法。谷歌Gemini可能会使用类似的方法:谷歌DeepMind首席执行官Demis Hassabis在一次采访中透露,他们希望将AlphaGo的思想应用于Gemini。