Claude“计算机使用”功能引发热议,新研究揭示GUI代理能力现状

2024年11月21日 由 neo 发表 177 0

自Anthropic于十月为Claude推出“计算机使用”功能以来,AI代理在模拟人类互动方面的能力引发了广泛关注。新加坡国立大学的Show Lab最近进行了一项新研究,对当前一代图形用户界面(GUI)代理的预期能力进行了全面概述。


QQ截图20241121165216

Claude作为首个能够通过与人类相同的接口与设备互动的前沿模型,仅凭桌面截图,并通过触发键盘和鼠标动作实现互动,这一功能承诺用户可通过简单指令自动化任务,无需访问应用程序的API。

研究人员在多种任务上对Claude进行了测试,包括网络搜索、工作流程完成、办公效率和电子游戏。在网络搜索任务中,Claude需要浏览和与网站互动,如搜索和购买商品或订阅新闻服务。工作流程任务则涉及多应用程序交互,例如从网站提取信息并将其插入电子表格。办公效率任务测试了代理执行常见操作的能力,如格式化文档、发送电子邮件及创建演示文稿。而电子游戏任务则评估了代理执行多步骤任务的能力,这些任务需要理解游戏逻辑并规划行动。

测试从计划、执行和评估三个维度对模型的能力进行了全面考察。首先,模型必须制定一个连贯的计划来完成任务;接着,它需要将每个步骤转化为具体动作,如打开浏览器、点击元素及输入文字;最后,评估元素判断模型是否能在完成任务过程中评估其进度和成功。如果模型犯错,它应能修正;如果任务无法完成,它应提供合理解释。研究人员基于这三个组成部分创建了一个框架,并由人类对所有测试进行审查和评级。

总体来说,Claude在执行复杂任务时表现出色。它能够推理和规划完成任务所需的多个步骤,执行相应动作并在每一步评估进度。它还能在不同应用程序之间进行协调,如从网页复制信息并粘贴到电子表格中。此外,在某些情况下,它会在任务结束时重新检查结果,以确保一切符合目标。模型的推理轨迹显示,它对不同工具和应用程序的工作原理有总体理解,并能有效协调。

然而,Claude也犯了一些普通用户容易避免的小错误。例如,在一个任务中,模型未能完成订阅,因为它没有滚动网页以找到相应按钮。在其他情况下,它在非常简单明了的任务中失败,如选择并替换文本或将项目符号点更改为编号。此外,模型要么没有意识到自己的错误,要么对未达到预期目标的原因做出了错误的假设。

研究人员指出,模型对其进度的误判凸显出“模型自我评估机制的不足”,并建议“要完全解决这一问题可能仍然需要改善GUI代理框架,比如内部严格的批评模块。”从结果来看,GUI代理并不能复制人类使用计算机的所有基本细微差别。

对于企业而言,使用基本文本描述自动化任务的承诺非常具有吸引力。但至少目前,这项技术尚未准备好进行大规模部署。模型的行为不稳定,可能导致不可预测的结果,这在敏感应用中可能产生严重后果。通过为人类设计的界面执行操作也不是完成API可处理任务的最快方式。

关于赋予大型语言模型(LLMs)对鼠标和键盘控制的安全风险,我们还有很多需要学习的地方。例如,一项研究表明,网页代理很容易受到人类轻易忽略的对抗性攻击的影响。

尽管如此,像Claude“计算机使用”这样的工具仍具有其价值。它可以帮助产品团队探索想法,并在不耗费时间和金钱开发新功能或服务来自动化任务的情况下迭代不同解决方案。一旦发现了可行的解决方案,团队可以专注于开发所需代码和组件,以高效可靠地交付。大规模自动化任务仍然需要健壮的基础设施,包括可以安全地连接和大规模服务的API和微服务。未来,随着技术的不断进步和完善,我们有理由相信,GUI代理将在更多领域发挥重要作用。

文章来源:https://venturebeat.com/ai/anthropics-computer-use-mode-shows-strengths-and-limitations-in-new-study/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消