智谱公司开源CogAgent-9B：推动GUI交互大模型生态发展

2024年12月27日由 daydream 发表 397 0

智谱公司正式推出了基于GLM-4V-9B模型训练的专用Agent任务模型——CogAgent-9B-20241220，并宣布将此模型的基座部分开源，以供社区进一步开发和利用。此举旨在推动大模型Agent生态的繁荣发展。

4805a0d2-0695-4dce-bbf0-58eeba52371f

CogAgent-9B-20241220模型专为GUI（图形用户界面）交互场景设计，它仅需接收屏幕截图作为输入，无需额外的HTML或其他文本表征，便能根据用户指定的任务及历史操作记录，预测并执行下一步的GUI操作。这一特性使得CogAgent能够广泛应用于个人电脑、手机、车机等多种基于GUI交互的设备上。

相较于2023年12月开源的第一版CogAgent模型，新版CogAgent-9B-20241220在GUI感知、推理预测准确性、动作空间完善性、任务普适性和泛化性等方面均实现了显著提升。此外，它还支持中英文双语的屏幕截图和语言交互，进一步拓宽了应用场景。

在具体的工作流程中，CogAgent模型接收用户的自然语言指令、已执行的历史动作记录和当前GUI截图作为输入。随后，它根据这些信息计算当前GUI截图中最合适的动作，并通过端侧应用将该动作注入GUI中。GUI响应并更新图像内容后，该动作被添加到历史动作记录中。CogAgent再根据更新后的历史动作和截图，计算后续操作，直至任务完成。

CogAgent的输出包括四个部分：思考过程（包含状态和计划）、下一步动作的自然语言描述、下一步动作的结构化描述以及下一步动作的敏感性判断。其中，结构化描述以类似函数调用的形式呈现，便于端侧应用解析并执行。

在模型升级方面，CogAgent-9B-20241220采用了更强大的GLM-4V-9B作为基座模型，显著提升了图像理解性能。同时，它还优化了视觉处理模块，支持高分辨率图像输入，并通过带参数的下采样方法提高了模型效率。此外，智谱公司还广泛收集并整合了多种数据集，包括无监督数据和GUI指令微调数据集，用于模型的训练和微调。

在预训练和后训练策略上，CogAgent也进行了多项优化。例如，它引入了GUI Grounding预训练策略，利用屏幕截图和布局对构建界面子区域与布局表征的对应关系；在后训练阶段，则通过融合GUI相关多任务数据和采用更科学的训练策略来深化模型对GUI内容和功能的理解。

为了验证CogAgent-9B-20241220的性能，智谱公司在多个数据集上进行了测试。结果表明，CogAgent在GUI定位、单步操作、中文step-wise榜单以及多步操作等多个方面均取得了领先的结果。仅在OSworld数据集上略逊于针对Computer Use特化的Claude-3.5-Sonnet和结合外接GUI Grounding Model的GPT-4o模型。

综上所述，CogAgent-9B-20241220模型的推出标志着智谱公司在GUI交互Agent领域取得了重要进展。未来，随着社区的不断开发和利用，CogAgent有望为更多基于GUI交互的设备和应用提供智能化支持。

文章来源：https://mp.weixin.qq.com/s/Z9UoOVDVGJA5yudmVYbqPw

标签：

智谱 CogAgent-9B 大模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 DeepSeek V3开源：6850亿参数模型在多领域评测中脱颖而出

下一篇 DRT-01模型：腾讯研究院推出文学翻译新工具

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来