Anthropic发布AI模型新功能：Claude可像人类一样操控电脑

2024年10月23日由 daydream 发表 319 0

近日，Anthropic公司推出了两个更新的AI模型，并附带一项新功能，使其AI助手Claude能够像人类用户一样操控电脑。这项名为“电脑使用”的功能现已进入公开测试阶段，允许Claude通过查看屏幕、移动光标和打字来执行任务，成为首个具备此功能的前沿AI模型。

微信截图_20241023111125

Anthropic的开发者关系主管Alex Albert解释称，公司并未为特定任务开发专用工具，而是为Claude传授了通用的电脑技能。这使得Claude能够自然地使用人们日常使用的软件和工具。

“电脑使用”功能结合了现有的AI视觉理解和逻辑推理能力，建立在之前的多模态和工具使用模型研究基础上。Claude首先会截取电脑屏幕的截图，识别屏幕上的元素，并根据像素位置计算操作。通过确定光标在垂直或水平方向上需要移动的像素数量，Claude能够准确点击并有效交互。这种像素计算的精确性对于确保可靠控制至关重要，与模型处理文本挑战的方式类似。

训练过程中，Claude还被教会使用简单的软件，如计算器和文本编辑器，从而能够将这些技能推广到更复杂的应用程序。尽管仍处于早期阶段，但这一功能已经展现出显著的灵活性和自我修正能力，能够自主克服障碍。

Anthropic分享的演示展示了Claude的实际操作能力。例如，在没有人类协助的情况下，Claude能够跨电子表格和客户关系管理系统（CRM）查找相关信息，并将其输入到所需表格中，以完成供应商请求。

在另一个示例中，Claude承担了编程任务，在网页浏览器和集成开发环境（IDE）中创建、修改和运行了一个具有90年代风格的个人主页，并在过程中修复了错误。尽管遇到了未安装Python等障碍，但Claude迅速适应，转而使用Python 3。

Anthropic指出，Claude目前在执行人类认为轻而易举的基本操作，如滚动和拖动方面存在困难。在录制演示时，Claude甚至意外停止并偏离了任务，去查看黄石国家公园的照片。

此外，此次公告还介绍了升级的Claude 3.5 Sonnet模型，该模型在编码能力方面有了显著提升，在SWE-bench Verified测试中获得了49%的分数，超过了包括OpenAI的o1-preview在内的竞争对手。GitLab发现，这一升级使其软件开发性能提高了约10%，且未增加延迟，这对于实时编码任务而言是一大优势。

新加入的Claude 3.5 Haiku模型则与Anthropic之前的顶级模型性能相当，但成本更低、速度更快。该模型将于本月晚些时候通过Anthropic的API和主要云服务提供商推出。

为确保安全，Anthropic实施了包括新系统在内的多项措施，以检测该功能可能存在的垃圾邮件或欺诈等滥用行为。此外，美国和英国的AI安全研究所也参与了升级模型的预部署测试，保持了与之前版本相同的安全标准。

目前，“电脑使用”功能已通过Anthropic的API和亚马逊Bedrock、谷歌云的Vertex AI等云服务向开发者提供公开测试。包括Asana、Canva和DoorDash在内的多家公司正在测试该技术，以执行复杂任务。

尽管Claude目前的电脑技能与人类相比仍有差距，在行业测试中得分仅为14.9%，而人类典型得分为70-75%，但Anthropic预计在未来几个月内将实现快速改进。尽管仍处于实验阶段，但这一功能为AI开辟了新的可能性，使其不仅能够处理文本，还能执行现实世界中的数字任务。

文章来源：https://www.maginative.com/article/anthropics-claude-ai-can-now-control-your-computer/

标签：

Anthropic AI Claude

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇微软发布自主Copilot代理的封闭测试版本

下一篇 Canva推出多项AI新功能，包括全新图像生成器Dream Lab

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来