OpenAI于昨晚宣布推出全新的AI模型GPT-4o及ChatGPT的桌面版本,同时更新了用户界面,这是该公司进一步扩大其广受欢迎的聊天机器人使用范围的最新举措。
技术总监Mira Murati在直播活动中表示,新模型GPT-4o将GPT-4的先进技术带给所有用户,包括OpenAI的免费用户。她进一步指出,GPT-4o“速度更快”,在文本、视频和音频处理方面均有所提升。OpenAI透露,其长远规划将包括允许用户与ChatGPT进行视频聊天。
Murati强调:“这是我们首次在易用性上取得巨大突破。”
得到微软支持的OpenAI,已被投资者估值超过800亿美元。这家2015年成立的公司正面临在生成性AI市场中保持领先地位的压力,同时也在探索盈利途径,以弥补在处理器和基础设施上的巨大投入。
GPT-4o中的“o”代表“全能”。Murati表示,新模型使ChatGPT能以更高的速度和质量处理50种不同的语言,并通过OpenAI的API提供,让开发人员能够立即开始利用新模型构建应用程序。
她补充说,GPT-4o的速度是GPT-4 Turbo的两倍,而成本仅为其一半。
OpenAI团队展示了新模型的音频功能,例如,在公开演讲前帮助用户放松。研究员Mark Chen表示,该模型能够“感知用户的情绪”,并具备处理用户打断的能力。团队还要求模型分析用户的面部表情,评估其可能的情绪状态。
当用户与ChatGPT音频模式互动时,它会说:“嘿,怎么了?今天我怎样才能让你的一天变得更美好?”
该公司计划在未来几周内测试音频模式,根据博客文章,ChatGPT Plus的付费订阅者将首先获得早期访问权限。OpenAI声称,新模型能在“短至232毫秒,平均320毫秒”的时间内响应用户的音频提示,这与人类对话中的响应时间相近。
Chen还展示了模型讲述睡前故事的能力,并演示了改变声音语调,使其更加戏剧化或机械化的效果。他甚至要求模型唱出这个故事。
此外,OpenAI表示,新模型在音频模式下还可作为翻译器使用。Chen展示了该工具的能力,能够实时翻译Murati的意大利语和英语之间的对话。
团队成员还展示了模型解决数学方程和编写代码的能力,将其定位为微软GitHub Copilot的强大竞争对手。
此次发布是自8月推出ChatGPT Enterprise以来,OpenAI最大的公告之一。OpenAI首席运营官Brad Lightcap当时告诉CNBC,该工具的开发“不到一年”,得到了20多家不同规模和行业公司的支持。
OpenAI、微软和谷歌正处于生成性AI的淘金热中,因为各行各业的公司都在竞相将AI驱动的聊天机器人和代理融入关键服务,以避免被竞争对手甩在身后。本月早些时候,OpenAI的竞争对手Anthropic宣布了其首个企业产品和免费iPhone应用。
根据PitchBook的数据,2023年,近700笔生成性AI交易共投资了创纪录的291亿美元,比前一年增长了260%以上。预计该市场将在十年内收入超过1万亿美元。
然而,业内一些人对新服务未经充分测试就迅速进入市场表示担忧,而学者和伦理学家则对技术可能加剧偏见的趋势感到担忧。
自2022年11月推出以来,ChatGPT打破了历史纪录,成为增长最快的消费者应用之一,目前每周拥有约1亿活跃用户。OpenAI表示,超过92%的财富500强公司正在使用其平台。
Murati在周一的活动中表示,OpenAI希望“消除技术的一些神秘感”。她进一步透露:“在接下来的几周内,我们将向所有人推出这些功能。”
根据周一的博客文章,新模型将首先在周二向ChatGPT Plus和Team的客户推出,随后将面向企业用户。从周一开始,它也将向ChatGPT的免费用户提供,但会有使用限制。ChatGPT Plus的用户将享有比免费用户多五倍的消息容量,而ChatGPT Team和Enterprise的客户则将享有更大的使用限制。
在直播活动结束时,Murati对Nvidia首席执行官Jensen Huang及其团队表达了感谢,他们提供了必要的图形处理单元(GPUs)来支持OpenAI的技术。她表示:“我想感谢OpenAI团队的辛勤工作,以及Jensen和Nvidia团队为我们带来最先进的GPU,使得今天的演示成为可能。”