随着非理性语言模型继续越来越多地影响我们生活的方方面面,微软发布了一种让人工智能推理变得更好的方法,称为“Everything of Thought(XOT)”。这种方法的灵感来自谷歌DeepMind的AlphaZero,它使用微小的神经网络,实现比较大的神经网络更好的性能。
新的XOT方法是与佐治亚理工学院和华东师范大学合作开发的。他们将强化学习和蒙特卡洛树搜索(MCTS)相结合,这两种技术以其在复杂决策中的有效性而闻名。
研究人员说,这些技术结合在一起可以使语言模型有效地概括未知问题。研究人员对各种具有挑战性的任务进行了试验,例如24点游戏、8数码难题和口袋魔方,取得了令人印象深刻的结果。在解决其他方法无法解决的问题方面,XOT超越了其他方法。然而,这种优势并非没有局限性。尽管该系统取得了进步,但它还没有达到100%的可靠性。
然而,研究团队认为该框架是将外部知识融入语言模型推理的有效方法。他们确信它可以同时提高性能、效率和灵活性——这是通过其他方法无法实现的。
研究人员之所以着眼于将游戏下一步整合到语言模型中,是因为这些模型可以以令人印象深刻的准确性形成句子,但它们在一个对类人思维至关重要的方面还不够:逻辑推理的能力。
研究人员长期研究这个课题。多年来,学术界和科技界一直在深入研究这个难题。然而,尽管他们努力用更多的层、参数和注意力机制来增强人工智能,但仍然缺少解决方案。他们也一直在探索多模式,但也没有什么先进和可靠的结果。
今年早些时候,弗吉尼亚理工大学和微软的一个合作团队发布了一项名为“Algorithm of Thoughts”(AoT)的方法,以完善人工智能的算法推理,因为我们都知道ChatGPT发布时在数学方面有多糟糕。此外,它还表明,有了这种训练方法,大型语言模型可以将其直觉整合到优化的搜索中,以获得更好的结果。
此外,一个多月前,微软还将这些模型的道德推理置于显微镜下。因此,该团队提出了一个新的框架,旨在评估其道德决策技能。在结果中,700亿参数的LlamaChat模型的表现优于大型模型。这一结果挑战了长期以来的信念,即越大越好,以及社区对大参数的过度依赖。
随着大型科技公司继续面临其非理性语言模式的后果,微软的战略似乎是一个谨慎的进步。他们没有急于为模型增加复杂性,而是一次解决一个问题。
微软尚未透露在其产品中实施XOT方法的计划。与此同时,首席执行官Demis Hassabis领导的谷歌DeepMind正在考虑将AlphaGo启发的概念整合到其Gemini项目中,正如他在接受采访时提到的那样。
Meta的CICERO项目,以著名的罗马演说家的名字命名,也在一年前进入了竞争,因其在复杂的棋盘游戏“'Diplomacy”中的高超技巧而让整个AI社区惊讶。这个游戏不仅需要战略意识,还需要谈判艺术,长期以来一直被认为是对人工智能的挑战。然而,CICERO在这些领域中游刃有余,表现出了微妙的、类似人类的对话的能力。
这一发现并没有被忽视,尤其是考虑到DeepMind设定的基准。多年来,这家总部位于英国的研究实验室一直使用游戏来开发和完善神经网络。
他们在AlphaGo上的壮举设定了一个很高的标准,Meta借鉴了DeepMind的战略;将AlphaGo等战略推理算法与GPT-3等自然语言处理模型相结合。
Meta的模型之所以脱颖而出,是因为对于玩Diplomacy的人工智能来说,它不仅必须了解游戏规则,还必须准确衡量其他人类玩家背叛的可能性。
CICERO能力与Meta更广泛的人工智能举措的整合,可能标志着真正对话型人工智能的开始。