自OpenAI在2022年11月下旬推出ChatGPT以来,其免费版本一直相对保持不变,使用相同的大型语言模型(GPT-3.5)和用户界面——以及相同的限制。然而,OpenAI的一系列ChatGPT升级将显著改善用户对聊天机器人的体验。
在周一的直播活动中,OpenAI公司公布了免费版ChatGPT的重大更新,为用户解锁了一系列新的多模态功能,包括新的和改进的语音和图像辅助。
1、GPT-4o
活动的最大新闻是OpenAI推出了新的旗舰大型语言模型(LLM)——GPT4o。顾名思义,该模型提供了GPT-4级别的智能;然而,与前代相比,它拥有多项升级,如更快的性能和跨文本、语音和视觉的多模态能力。
这次升级不仅解锁了尖端功能——包括新的语音模式和扩展的语言支持——而且终于让免费用户能够访问到大多数原本仅限于每月20美元的ChatGPT Plus订阅者才能使用的功能。
例如,免费用户现在可以体验GPT-4级别的智能,通过Bing的ChatGPT Browse从网络获取回复,分析数据,围绕照片和文档聊天,使用GPTs,并访问GPT商店。之前,所有这些功能仅对ChatGPT Plus订阅者开放。
ChatGPT Plus用户继续享有的优势包括比免费用户多五倍的容量,优先使用GPT-4o的权限,以及像新的macOS应用程序这样的升级。相比之下,当GPT-4o的容量达到上限时,免费用户将被退回到GPT-3.5。
据该公司称,GPT-4o已经向ChatGPT Plus和团队用户推出,企业用户也将很快可以使用。免费用户也将获得LLM的推出;然而,这些用户将有一些使用限制。
2、新语音模式
直播演示中令人瞩目的亮点是全新升级的语音模式,借助GPT-4o的新视频和音频功能进行了升级。与之前的语音模式不同,用户现在将体验到更加自然的对话。例如,用户可以打断语音助手,并让助手以不同的声音说话。在直播演示中,用户让ChatGPT以唱歌的方式回应或以不同的语调说话,如“戏剧性的机器人声音”。
人工智能助手还将能够使用环境上下文来提供语音回答。在下面的演示中,你可以听到ChatGPT的语音模式与用户聊天,并详细描述用户周围的环境,如他穿着什么衣服,坐在哪里。
如果你需要对你正在观看的内容进行辅助,这可能会很有用。例如,如果你想知道你最近在一个新城市遇到的那座美丽建筑的名字,或者你想翻译一份菜单。直播演示中包括了一个部分,其中两个人用两种不同的语言进行对话,而ChatGPT改进后的语音模式将整个对话进行了翻译。
改进后的语音模式将在未来几周内以alpha版的形式推出,随着公司更广泛地推出该模式,ChatGPT Plus用户将获得早期访问权限。
3. 上传截图、照片和文档
如上所述,GPT-4o允许用户除了文本外,还可以上传图片和文档,以获取所需信息的AI见解。这是一项巨大的进步,因为这一功能可以说是AI聊天机器人所能提供的最有用的功能之一,而在此之前,它仅限于ChatGPT Plus用户。此外,到目前为止,唯一提供文档上传功能的免费主流聊天机器人是Anthropic的Claude。
用户可以通过上传PDF(如研究论文或冗长的法律文件)来利用这一功能,并请聊天机器人提供有关内容的详细摘要或问题,ChatGPT可以提供对话式回答。用户还可以使用图片功能来帮助处理正在查看的内容,例如工作表上的数学方程式或识别看到的植物类型。
4、更多的语言支持
GPT-4o让ChatGPT现在支持超过50种语言。据OpenAI称,这是为了让ChatGPT更加面向全球用户。然而,扩展的语言也对日常用户有所帮助,因为它们有助于聊天机器人的翻译功能,该功能也随着新的语音模式得到了改进。
5、新的浏览器界面和应用程序
自从ChatGPT推出以来,其用户界面一直没有变化——直到现在。现在,聊天机器人拥有OpenAI所称的“简化外观和感觉”,既“更友好也更便于对话”。当用户访问页面时,他们将看到一个新的主页、消息布局等,如下方截图所示。
这些变化似乎微不足道,最大的不同是更简洁、更简化的外观。此外,该公司从今天开始向ChatGPT Plus用户发布一款新的macOS应用程序,并将在未来几周内更广泛地提供。该公司表示,Windows版本将在今年晚些时候推出。
6、GPT商店的访问权限
GPT是定制的ChatGPT聊天机器人,旨在执行特定任务。它们于今年3月取代了ChatGPT插件,因为GPT更容易被开发者构建;现在用户可以在GPT商店中找到超过三百万个GPT。
这一功能非常有价值,因为它使用户能够扩展ChatGPT的功能,并将其与一些他们最喜欢的应用程序集成。例如,Canva有自己的GPT,允许用户通过聊天机器人设计项目。另一个例子是Wolfram GPT,它协助用户在聊天机器人界面内进行数学运算。