HUSKY:针对多步推理进行优化的新型智能体

2024年06月21日 由 alex 发表 161 0

推理被公认为是生成式人工智能的下一个前沿领域。我们所说的推理是指将任务分解成更小的子集并单独解决这些子集的能力。思维链(Chain-of-Thought)、思维树(Tree-of-Thought)、思维骨架(Skeleton-of-Thought)和反思(Reflexion)是最近在 LLM 中解决推理能力的一些技术。推理还涉及访问外部数据或工具等外围能力。在过去几年中,我们看到一些模型在特定的推理技术中表现非常出色,但它们却无法在不同领域中通用。如果我们考虑到推理是一项计算成本非常高昂的任务,这就不足为奇了。


HUSKY 是一个开源语言代理,旨在处理涉及数字、表格和知识推理的各种复杂任务。与其他专注于特定任务或使用专有模型的代理不同,HUSKY 在一个统一的框架内运行,以应对各种挑战。它的工作分为两个阶段:首先,它生成解决任务所需的下一步行动;其次,它使用专家模型执行该行动,并在执行过程中更新解决方案。


2


HUSKY 内部

HUSKY 采用详细的行动计划来处理复杂的任务。首先,它会生成下一个步骤,其中包括行动和所需工具。然后,它使用专门的模型执行行动,更新解决方案状态。这种方法使 HUSKY 能够像现代版的经典计划系统一样,使用大型语言模型 (LLM) 来优化性能。


3


对于需要多步推理的任务,HUSKY 会预测下一步行动和相应的工具,然后通过专家模型执行。这个过程一直持续到找到最终答案。HUSKY 使用多个 LLM 来协调专家模型,就像一队哈士奇一起拉雪橇。


行动和工具选择

HUSKY 在生成行动和执行行动之间反复迭代,直至达到终端状态。行动生成器会预测下一个高级步骤,并从一组预定义的工具中分配一个工具:代码、数学、搜索或常识。根据指定的工具,HUSKY 会调用专家模型、执行操作并更新解决方案状态,还可选择将输出转换为自然语言。


训练 HUSKY

HUSKY 的训练包括使用教师模型创建工具集成解决方案轨迹。这些轨迹有助于为动作生成器和专家模型建立训练数据。训练管道经过简化,具有通用性,可确保 HUSKY 能够处理各种任务,而无需针对特定任务进行假设。


4


推理过程

在推理过程中,HUSKY 会整合其训练有素的模块,以解决新的多步骤任务。动作生成器确定第一步和工具,然后将其传递给专家模型,由专家模型产生输出。这种迭代过程一直持续到最终解决方案的实现,专家模型为每个步骤提供特定的输出。


评估和性能

评估 HUSKY 需要测试其在复杂推理任务中的推理能力,并对结果进行评分。现有的数据集往往缺乏 HUSKY 所需的工具多样性,因此我们创建了新的评估集 HUSKYQA 来测试混合工具推理。该数据集包括需要检索缺失知识和执行数字推理的任务。尽管使用了较小的模型,HUSKY 仍能与 GPT-4 等前沿模型相媲美,甚至更胜一筹,这充分证明了它的有效性。


HUSKY 与其他基线语言代理一起在各种需要多步骤推理和工具使用的任务中接受了训练和评估。其中一半任务用于训练 HUSKY 基于工具集成解决方案路径的模块,另一半用于评估。所有任务均以零分的方式进行评估。


1) 数字推理任务

数字推理任务包括从小学到高中竞赛水平的数学数据集。这些数据集包括 GSM-8K、MATH、Google DeepMind 数学任务和来自 LILA 基准的 MathQA。Google DeepMind 数学任务的重点是代数、基础数学、微积分、乘法/除法和数论子集。对于 MathQA,子集包括增益、综合、几何、物理和概率。GSM-8K 和 MATH 用于训练,共提供了 13.7K 条工具集成解题路径。


2) 表格式推理任务

表格推理任务包括表格数学单词问题数据集 TabMWP、金融问题解答数据集 FinQA 和 TAT-QA,以及多模态数据集 MultimodalQA 中的测试问题子集,后者要求同时理解文本和表格数据。TabMWP 和 FinQA 用于训练和评估,而 TAT-QA 和 MultimodalQA 则用于评估。这些数据集共提供了 7.2K 条工具集成解决方案路径。


3) 基于知识的推理任务

基于知识的推理任务包括 HotpotQA、CWQ、Musique、Bamboogle 和 StrategyQA。HotpotQA 和 Bamboogle 用于评估,CWQ 和 Musique 用于培训,StrategyQA 用于评估和培训。通过收集,共获得了 7K 条工具集成解决方案路径。


模式


评估包括以下模式:

  • 动作发生器: 对于动作生成器,HUSKY 使用了 LLAMA-2-7B、13B 和 LLAMA-3-8B 模型。从训练集中删除了不正确的求解路径,从而产生了 110K 个实例,涵盖数字、表格、基于知识和混合工具的推理任务。在此多任务训练集中,对动作生成器进行了全面微调。


  • 代码生成器: DEEPSEEKCODER-7B-INSTRUCT-V1.5 模型以其强大的编码能力而著称,被选为微调代码生成器的基础。使用正确的求解路径提取所有必要的代码,最终生成 44K 个代码实例用于训练。


  • 数学推理器: 选择 DEEPSEEKMATH-7B-INSTRUCT 模型是因为它具有先进的数学推理能力。正确的求解路径提供了 30K 个数学求解实例,用于对数学推理器进行微调。


  • 查询生成器: 查询生成器使用 LLAMA-2-7B 作为基础模型。正确的求解路径产生了 22K 个搜索查询实例,用于微调查询生成器。


部分结果见下表:


5


HUSKY 代表了语言代理的重大进步,为复杂的推理任务提供了一个通用的开源解决方案。它采用整体方法,将行动生成和执行与专家模型相结合,能够有效地应对各种挑战。从各种评估中可以看出,HUSKY 的性能彰显了其重新定义语言代理如何解决复杂问题的潜力。

文章来源:https://medium.com/towards-artificial-intelligence/meet-husky-a-new-agent-optimized-for-multi-step-reasoning-0edb8e087d22
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消