OpenAI推出AI代理Operator,可浏览网页执行任务

2025年01月24日 由 daydream 发表 4140 0

OpenAI近期发布了一款名为Operator的AI代理的“研究预览版”。该代理能够“访问网页并为用户执行任务”。据OpenAI介绍,Operator通过自带的浏览器功能,可以浏览网页,并通过键入、点击和滚动等方式与之交互。该服务首先在美国面向OpenAI每月200美元的ChatGPT Pro订阅用户推出。


微信截图_20250124092716


Operator采用了“计算机使用代理”模型,该模型结合了GPT-4的视觉能力与通过强化学习实现的“高级推理”能力,使其能够与图形用户界面(GUI)进行交互。OpenAI指出,Operator可以“看到”(通过截图)并与浏览器“交互”(执行鼠标和键盘允许的所有操作),从而无需自定义API集成即可在网页上执行操作。


Operator具备推理能力以进行“自我纠正”,若遇到无法解决的问题,会将控制权交给用户。当网站要求输入敏感信息(如登录凭据)时,Operator会请求用户接管操作;在执行如发送电子邮件等操作时,它“应该”会请求用户批准。OpenAI还表示,Operator被设计为“拒绝有害请求并阻止不允许的内容”。


OpenAI正与DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack和Uber等公司合作,以确保Operator“在满足现实需求的同时遵守既定规范”。但该公司也提醒,目前该工具在处理“复杂界面(如创建幻灯片或管理日历)”时仍存在问题,可能无法完全符合预期。


未来,OpenAI计划将Operator扩展至Plus、Team和Enterprise用户,并“将这些功能整合至ChatGPT中”。

文章来源:https://www.theverge.com/2025/1/23/24350395/openai-chatgpt-operator-agent-control-computer
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消