OpenAI更新Realtime API:新增语音选项并降价

2024年10月31日 由 daydream 发表 22 0

OpenAI近日对其尚处于测试阶段的Realtime API进行了更新,为平台增添了新的语音选项,并减少了与缓存提示相关的费用。


微信截图_20241031114338


此次更新后,Realtime API的测试用户将可使用五种新语音来开发应用。OpenAI在一份公告中展示了其中三种新语音:Ash、Verse以及具有英国口音的Ballad。


OpenAI在API文档中指出,原生的语音转语音功能“省去了中间文本格式,意味着延迟更低且输出更加细腻”,同时这些新语音比之前的语音更易控制且更具表现力。


然而,OpenAI也发出警告,由于目前仍处于测试阶段,因此无法为API提供客户端身份验证。此外,实时音频处理可能会遇到问题。


OpenAI表示:“网络条件对实时音频有很大影响,在网络条件不稳定的情况下,可靠地将音频从客户端传输到服务器进行大规模处理颇具挑战性。”


OpenAI在AI语音领域的历史充满争议。今年3月,该公司推出了Voice Engine语音克隆平台,以与ElevenLabs竞争,但仅对少数研究人员开放。5月,OpenAI在演示GPT-4o和语音模式后,因女演员斯嘉丽·约翰逊对其中一个名为Sky的语音表示不满,而暂停使用该语音。


9月,OpenAI在美国为付费订阅用户(包括使用ChatGPT Plus、Enterprise、Teams和Edu的用户)推出了ChatGPT高级语音模式。


理想的语音转语音AI技术应能让企业通过语音实现更快速的响应。例如,当客户致电公司的客服平台时,语音转语音功能可以识别客户的声音,理解其需求,并通过AI生成的语音以低延迟进行回复。此外,语音转语音技术还允许用户生成配音,即用户说出台词,但输出的声音并非其本人。提供此类服务的平台包括Replica和ElevenLabs。


本月,OpenAI在开发者日上发布了Realtime API,旨在加快语音助手的开发速度。


关于成本问题,虽然使用语音转语音功能可能会产生高昂费用,但OpenAI计划通过提示缓存来降低实时API的价格。


具体来说,缓存的文本输入费用将降低50%,缓存的音频输入费用将降低80%。


OpenAI在开发者日上还宣布了提示缓存功能,该功能会将频繁请求的上下文和提示保存在模型的内存中,从而减少生成响应所需的令牌数量。降低输入价格可能会吸引更多开发者连接到该API。


值得注意的是,OpenAI并非唯一推出提示缓存的公司。8月,Anthropic为Claude 3.5 Sonnet也推出了提示缓存功能。

文章来源:https://venturebeat.com/ai/openai-expands-realtime-api-with-new-voices-and-cuts-prices-for-developers/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消