OpenAI推出AI代理Operator，可浏览网页执行任务

2025年01月24日由 daydream 发表 4434 0

OpenAI近期发布了一款名为Operator的AI代理的“研究预览版”。该代理能够“访问网页并为用户执行任务”。据OpenAI介绍，Operator通过自带的浏览器功能，可以浏览网页，并通过键入、点击和滚动等方式与之交互。该服务首先在美国面向OpenAI每月200美元的ChatGPT Pro订阅用户推出。

微信截图_20250124092716

Operator采用了“计算机使用代理”模型，该模型结合了GPT-4的视觉能力与通过强化学习实现的“高级推理”能力，使其能够与图形用户界面（GUI）进行交互。OpenAI指出，Operator可以“看到”（通过截图）并与浏览器“交互”（执行鼠标和键盘允许的所有操作），从而无需自定义API集成即可在网页上执行操作。

Operator具备推理能力以进行“自我纠正”，若遇到无法解决的问题，会将控制权交给用户。当网站要求输入敏感信息（如登录凭据）时，Operator会请求用户接管操作；在执行如发送电子邮件等操作时，它“应该”会请求用户批准。OpenAI还表示，Operator被设计为“拒绝有害请求并阻止不允许的内容”。

OpenAI正与DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack和Uber等公司合作，以确保Operator“在满足现实需求的同时遵守既定规范”。但该公司也提醒，目前该工具在处理“复杂界面（如创建幻灯片或管理日历）”时仍存在问题，可能无法完全符合预期。

未来，OpenAI计划将Operator扩展至Plus、Team和Enterprise用户，并“将这些功能整合至ChatGPT中”。

文章来源：https://www.theverge.com/2025/1/23/24350395/openai-chatgpt-operator-agent-control-computer

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇软件工程师低价购“OGOpenAI.com”域名，跳转至DeepSeek官网

下一篇 ChatGPT经历短暂中断，现已实施修复

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来