OpenAI近期发布了一款名为Operator的AI代理的“研究预览版”。该代理能够“访问网页并为用户执行任务”。据OpenAI介绍,Operator通过自带的浏览器功能,可以浏览网页,并通过键入、点击和滚动等方式与之交互。该服务首先在美国面向OpenAI每月200美元的ChatGPT Pro订阅用户推出。
Operator采用了“计算机使用代理”模型,该模型结合了GPT-4的视觉能力与通过强化学习实现的“高级推理”能力,使其能够与图形用户界面(GUI)进行交互。OpenAI指出,Operator可以“看到”(通过截图)并与浏览器“交互”(执行鼠标和键盘允许的所有操作),从而无需自定义API集成即可在网页上执行操作。
Operator具备推理能力以进行“自我纠正”,若遇到无法解决的问题,会将控制权交给用户。当网站要求输入敏感信息(如登录凭据)时,Operator会请求用户接管操作;在执行如发送电子邮件等操作时,它“应该”会请求用户批准。OpenAI还表示,Operator被设计为“拒绝有害请求并阻止不允许的内容”。
OpenAI正与DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack和Uber等公司合作,以确保Operator“在满足现实需求的同时遵守既定规范”。但该公司也提醒,目前该工具在处理“复杂界面(如创建幻灯片或管理日历)”时仍存在问题,可能无法完全符合预期。
未来,OpenAI计划将Operator扩展至Plus、Team和Enterprise用户,并“将这些功能整合至ChatGPT中”。