OpenAI近日对其尚处于测试阶段的Realtime API进行了更新,为平台增添了新的语音选项,并减少了与缓存提示相关的费用。
此次更新后,Realtime API的测试用户将可使用五种新语音来开发应用。OpenAI在一份公告中展示了其中三种新语音:Ash、Verse以及具有英国口音的Ballad。
OpenAI在API文档中指出,原生的语音转语音功能“省去了中间文本格式,意味着延迟更低且输出更加细腻”,同时这些新语音比之前的语音更易控制且更具表现力。
然而,OpenAI也发出警告,由于目前仍处于测试阶段,因此无法为API提供客户端身份验证。此外,实时音频处理可能会遇到问题。
OpenAI表示:“网络条件对实时音频有很大影响,在网络条件不稳定的情况下,可靠地将音频从客户端传输到服务器进行大规模处理颇具挑战性。”
OpenAI在AI语音领域的历史充满争议。今年3月,该公司推出了Voice Engine语音克隆平台,以与ElevenLabs竞争,但仅对少数研究人员开放。5月,OpenAI在演示GPT-4o和语音模式后,因女演员斯嘉丽·约翰逊对其中一个名为Sky的语音表示不满,而暂停使用该语音。
9月,OpenAI在美国为付费订阅用户(包括使用ChatGPT Plus、Enterprise、Teams和Edu的用户)推出了ChatGPT高级语音模式。
理想的语音转语音AI技术应能让企业通过语音实现更快速的响应。例如,当客户致电公司的客服平台时,语音转语音功能可以识别客户的声音,理解其需求,并通过AI生成的语音以低延迟进行回复。此外,语音转语音技术还允许用户生成配音,即用户说出台词,但输出的声音并非其本人。提供此类服务的平台包括Replica和ElevenLabs。
本月,OpenAI在开发者日上发布了Realtime API,旨在加快语音助手的开发速度。
关于成本问题,虽然使用语音转语音功能可能会产生高昂费用,但OpenAI计划通过提示缓存来降低实时API的价格。
具体来说,缓存的文本输入费用将降低50%,缓存的音频输入费用将降低80%。
OpenAI在开发者日上还宣布了提示缓存功能,该功能会将频繁请求的上下文和提示保存在模型的内存中,从而减少生成响应所需的令牌数量。降低输入价格可能会吸引更多开发者连接到该API。
值得注意的是,OpenAI并非唯一推出提示缓存的公司。8月,Anthropic为Claude 3.5 Sonnet也推出了提示缓存功能。