近期,有消息称OpenAI可能即将发布一款名为Operator的AI工具,该工具能够控制用户的个人电脑并代为执行操作。这一信息源自软件工程师Tibor Blaho,他因多次准确泄露即将发布的AI产品信息而闻名。
据Blaho透露,他发现了有关Operator的多个证据。此前,包括彭博社在内的多家媒体也曾报道过Operator的相关信息,称其为一款“代理型”系统,能够自主完成编写代码、预订旅行等任务。
据知情人士透露,OpenAI计划于今年1月发布Operator。Blaho周末发现的代码进一步证实了这一消息。
Blaho表示,OpenAI针对macOS系统的ChatGPT客户端中,已加入隐藏选项,用于定义“切换Operator”和“强制退出Operator”的快捷键。同时,OpenAI的网站上也已添加了对Operator的引用,尽管这些引用目前尚未公开。
Blaho还指出,OpenAI的网站包含了一些尚未公开的表格,对比了Operator与其他电脑使用AI系统的性能。这些表格可能仅为占位符,但如果其中的数据准确,则表明Operator在执行某些任务时并非百分之百可靠。
在OSWorld基准测试中,一个可能是Operator所依赖的AI模型——“OpenAI电脑使用代理(CUA)”得分为38.1%,超过了Anthropic的电脑控制模型,但远低于人类的72.4%得分。在WebVoyager测试中,OpenAI CUA的表现超过了人类,该测试评估AI导航和与网站交互的能力。然而,在另一个基于Web的基准测试WebArena中,该模型的得分低于人类水平。
如果泄露的信息属实,Operator在执行一些对人类来说轻而易举的任务时也会遇到困难。例如,在一项要求Operator注册云提供商并启动虚拟机的测试中,其成功率仅为60%。在创建比特币钱包的任务中,Operator的成功率更是低至10%。
OpenAI尚未对此消息置评。
随着Anthropic、谷歌等竞争对手纷纷进军这一新兴领域,OpenAI即将进入AI代理市场的消息备受关注。尽管AI代理技术目前仍处于初级阶段且存在风险,但科技巨头们已将其视为AI领域的下一个重大突破。据市场分析机构预测,到2030年,AI代理市场的价值可能达到471亿美元。
值得注意的是,一些专家对AI代理技术的安全性表示担忧,尤其是在该技术迅速发展的背景下。据泄露的图表显示,Operator在特定安全评估中表现良好,包括试图让系统执行“非法活动”和搜索“敏感个人信息”的测试。据称,安全测试是Operator开发周期较长的原因之一。OpenAI联合创始人Wojciech Zaremba近期在一篇帖子中批评Anthropic发布了一款缺乏安全缓解措施的代理,并表示如果OpenAI发布类似产品,可能会引发负面反应。