谷歌据传正开发可操控浏览器的AI技术,计划12月展示

2024年10月28日 由 daydream 发表 115 0

据报道,谷歌或将于12月展示其基于Rabbit大型动作模型概念的自研产品。这款据称代号为“Project Jarvis”的项目,旨在为用户执行包括“收集研究资料、购买产品或预订航班”在内的多项任务。这一信息来源于三位直接了解该项目的知情人士。


微信截图_20241028101359


Jarvis将依托谷歌未来版本的Gemini大型语言模型,并专门针对Chrome浏览器进行优化,目前仅能通过网页浏览器工作。其设计初衷是帮助用户“自动化日常网络任务”,通过截取并解析屏幕截图,执行点击按钮或输入文本等操作。据称,在当前阶段,Jarvis在每项操作之间需要“几秒钟”的间隔时间。


目前,多家大型AI公司都在开发类似功能的产品。例如,微软的Copilot Vision允许用户与其讨论正在浏览的网页内容;苹果预计将在未来一年内推出能够在多个应用程序中根据屏幕内容执行任务的Intelligence功能;而AI初创公司Anthropic则推出了能够使用计算机的Claude beta更新版,尽管这一版本被形容为“笨重且易出错”;OpenAI也在据传开发类似功能的AI模型。


报道指出,谷歌计划于12月展示Jarvis,但这一时间表可能会发生变化。谷歌可能会先向少数测试者发布该工具,以便发现并解决可能存在的问题。


值得注意的是,就在此消息传出前几天,Anthropic推出了一项名为“计算机使用”的新功能,允许其AI与用户的电脑屏幕进行交互。该功能能够解析屏幕内容,并在用户同意的情况下执行诸如网页浏览、点击按钮和文本输入等操作。


这些新发展标志着AI辅助技术的转变,即从依赖后端应用程序集成转向能够处理实时屏幕活动的技术。而谷歌的Jarvis项目则更进一步,旨在直接通过用户浏览器进行交互。


随着越来越多的公司开始关注能够最小程度依赖人类监督的AI代理工具,这一领域的竞争正日益激烈。谷歌、微软和Anthropic等公司的最新动向,都表明它们正在探索如何通过AI技术自动化常规计算机任务,以提高业务效率和降低成本。

文章来源:https://www.theverge.com/2024/10/26/24280431/google-project-jarvis-ai-system-computer-using-agent
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消