AI代理在执行任务时,常需应对不同速度、推理及规划能力的要求。理想状态下,代理应能灵活选择直接记忆或复杂推理策略。然而,设计能根据任务需求自适应的代理系统仍是一大挑战。
近期,谷歌DeepMind的研究团队在一篇新论文中介绍了Talker-Reasoner框架,这是一个受人类认知“两个系统”模型启发的代理架构。此框架旨在帮助AI代理在不同类型的推理间找到平衡,从而提升用户体验的流畅度。
人类与AI中的系统1与系统2思维
诺贝尔奖得主丹尼尔·卡尼曼提出的两系统理论指出,人类思维由两个不同系统驱动。系统1快速、直观且自动,负责即时判断,如快速反应或识别熟悉模式。相反,系统2缓慢、深思熟虑并具分析性,擅长复杂问题解决、规划及推理。
尽管常被视为独立系统,两者却持续相互作用。系统1生成印象、直觉及意图,而系统2评估这些建议,并在认可时将其融入明确信念和深思熟虑的选择中。这种互动让我们能在从日常琐事到复杂问题的各种情境中自如应对。
当前AI代理主要依赖系统1模式
当前AI代理主要展现系统1特性,擅长模式识别、快速反应及重复性任务。但在需多步规划、复杂推理及战略决策的场景中,它们常表现欠佳,而这些正是系统2思维的强项。
Talker-Reasoner框架介绍
DeepMind提出的Talker-Reasoner框架旨在赋予AI代理系统1与系统2的能力。该框架将代理分为两个模块:Talker(言说者)和Reasoner(推理者)。
研究人员指出:“Talker专注于自然连贯的对话及环境交互,而Reasoner则专注于多步规划、推理及信念形成,这些信念以Talker提供的环境信息为基础。”
两模块主要通过共享内存系统交互。Reasoner通过最新信念和推理结果更新内存,而Talker检索这些信息以指导交互。这种异步通信使Talker能维持连续对话流程,即使Reasoner在后台进行耗时计算。
应用测试与未来研究方向
研究人员在睡眠辅导应用中测试了该框架。AI辅导员通过自然语言与用户交互,提供个性化睡眠习惯改善指导。此应用结合了快速共情对话与深思熟虑的知识推理。
睡眠教练的Talker组件处理对话,提供共情回应并引导用户经历不同辅导过程。Reasoner维护用户睡眠问题、目标、习惯及环境的信念状态,利用这些信息生成个性化建议和多步计划。此框架同样适用于客户服务、个性化教育等应用。
DeepMind研究人员还提出了未来研究方向,包括优化Talker与Reasoner的交互,以及扩展框架以包含多个Reasoners,每个专长于不同类型推理或知识领域,从而使代理能处理更复杂任务并提供更全面支持。