Anthropic发布AI模型新功能:Claude可像人类一样操控电脑

2024年10月23日 由 daydream 发表 26 0

近日,Anthropic公司推出了两个更新的AI模型,并附带一项新功能,使其AI助手Claude能够像人类用户一样操控电脑。这项名为“电脑使用”的功能现已进入公开测试阶段,允许Claude通过查看屏幕、移动光标和打字来执行任务,成为首个具备此功能的前沿AI模型。


微信截图_20241023111125


Anthropic的开发者关系主管Alex Albert解释称,公司并未为特定任务开发专用工具,而是为Claude传授了通用的电脑技能。这使得Claude能够自然地使用人们日常使用的软件和工具。


“电脑使用”功能结合了现有的AI视觉理解和逻辑推理能力,建立在之前的多模态和工具使用模型研究基础上。Claude首先会截取电脑屏幕的截图,识别屏幕上的元素,并根据像素位置计算操作。通过确定光标在垂直或水平方向上需要移动的像素数量,Claude能够准确点击并有效交互。这种像素计算的精确性对于确保可靠控制至关重要,与模型处理文本挑战的方式类似。


训练过程中,Claude还被教会使用简单的软件,如计算器和文本编辑器,从而能够将这些技能推广到更复杂的应用程序。尽管仍处于早期阶段,但这一功能已经展现出显著的灵活性和自我修正能力,能够自主克服障碍。


Anthropic分享的演示展示了Claude的实际操作能力。例如,在没有人类协助的情况下,Claude能够跨电子表格和客户关系管理系统(CRM)查找相关信息,并将其输入到所需表格中,以完成供应商请求。


在另一个示例中,Claude承担了编程任务,在网页浏览器和集成开发环境(IDE)中创建、修改和运行了一个具有90年代风格的个人主页,并在过程中修复了错误。尽管遇到了未安装Python等障碍,但Claude迅速适应,转而使用Python 3。


Anthropic指出,Claude目前在执行人类认为轻而易举的基本操作,如滚动和拖动方面存在困难。在录制演示时,Claude甚至意外停止并偏离了任务,去查看黄石国家公园的照片。


此外,此次公告还介绍了升级的Claude 3.5 Sonnet模型,该模型在编码能力方面有了显著提升,在SWE-bench Verified测试中获得了49%的分数,超过了包括OpenAI的o1-preview在内的竞争对手。GitLab发现,这一升级使其软件开发性能提高了约10%,且未增加延迟,这对于实时编码任务而言是一大优势。


新加入的Claude 3.5 Haiku模型则与Anthropic之前的顶级模型性能相当,但成本更低、速度更快。该模型将于本月晚些时候通过Anthropic的API和主要云服务提供商推出。


为确保安全,Anthropic实施了包括新系统在内的多项措施,以检测该功能可能存在的垃圾邮件或欺诈等滥用行为。此外,美国和英国的AI安全研究所也参与了升级模型的预部署测试,保持了与之前版本相同的安全标准。


目前,“电脑使用”功能已通过Anthropic的API和亚马逊Bedrock、谷歌云的Vertex AI等云服务向开发者提供公开测试。包括Asana、Canva和DoorDash在内的多家公司正在测试该技术,以执行复杂任务。


尽管Claude目前的电脑技能与人类相比仍有差距,在行业测试中得分仅为14.9%,而人类典型得分为70-75%,但Anthropic预计在未来几个月内将实现快速改进。尽管仍处于实验阶段,但这一功能为AI开辟了新的可能性,使其不仅能够处理文本,还能执行现实世界中的数字任务。

文章来源:https://www.maginative.com/article/anthropics-claude-ai-can-now-control-your-computer/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消