智谱公司正式推出了基于GLM-4V-9B模型训练的专用Agent任务模型——CogAgent-9B-20241220,并宣布将此模型的基座部分开源,以供社区进一步开发和利用。此举旨在推动大模型Agent生态的繁荣发展。
CogAgent-9B-20241220模型专为GUI(图形用户界面)交互场景设计,它仅需接收屏幕截图作为输入,无需额外的HTML或其他文本表征,便能根据用户指定的任务及历史操作记录,预测并执行下一步的GUI操作。这一特性使得CogAgent能够广泛应用于个人电脑、手机、车机等多种基于GUI交互的设备上。
相较于2023年12月开源的第一版CogAgent模型,新版CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升。此外,它还支持中英文双语的屏幕截图和语言交互,进一步拓宽了应用场景。
在具体的工作流程中,CogAgent模型接收用户的自然语言指令、已执行的历史动作记录和当前GUI截图作为输入。随后,它根据这些信息计算当前GUI截图中最合适的动作,并通过端侧应用将该动作注入GUI中。GUI响应并更新图像内容后,该动作被添加到历史动作记录中。CogAgent再根据更新后的历史动作和截图,计算后续操作,直至任务完成。
CogAgent的输出包括四个部分:思考过程(包含状态和计划)、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。其中,结构化描述以类似函数调用的形式呈现,便于端侧应用解析并执行。
在模型升级方面,CogAgent-9B-20241220采用了更强大的GLM-4V-9B作为基座模型,显著提升了图像理解性能。同时,它还优化了视觉处理模块,支持高分辨率图像输入,并通过带参数的下采样方法提高了模型效率。此外,智谱公司还广泛收集并整合了多种数据集,包括无监督数据和GUI指令微调数据集,用于模型的训练和微调。
在预训练和后训练策略上,CogAgent也进行了多项优化。例如,它引入了GUI Grounding预训练策略,利用屏幕截图和布局对构建界面子区域与布局表征的对应关系;在后训练阶段,则通过融合GUI相关多任务数据和采用更科学的训练策略来深化模型对GUI内容和功能的理解。
为了验证CogAgent-9B-20241220的性能,智谱公司在多个数据集上进行了测试。结果表明,CogAgent在GUI定位、单步操作、中文step-wise榜单以及多步操作等多个方面均取得了领先的结果。仅在OSworld数据集上略逊于针对Computer Use特化的Claude-3.5-Sonnet和结合外接GUI Grounding Model的GPT-4o模型。
综上所述,CogAgent-9B-20241220模型的推出标志着智谱公司在GUI交互Agent领域取得了重要进展。未来,随着社区的不断开发和利用,CogAgent有望为更多基于GUI交互的设备和应用提供智能化支持。