OpenAI更新Realtime API：新增语音选项并降价

2024年10月31日由 daydream 发表 422 0

OpenAI近日对其尚处于测试阶段的Realtime API进行了更新，为平台增添了新的语音选项，并减少了与缓存提示相关的费用。

微信截图_20241031114338

此次更新后，Realtime API的测试用户将可使用五种新语音来开发应用。OpenAI在一份公告中展示了其中三种新语音：Ash、Verse以及具有英国口音的Ballad。

OpenAI在API文档中指出，原生的语音转语音功能“省去了中间文本格式，意味着延迟更低且输出更加细腻”，同时这些新语音比之前的语音更易控制且更具表现力。

然而，OpenAI也发出警告，由于目前仍处于测试阶段，因此无法为API提供客户端身份验证。此外，实时音频处理可能会遇到问题。

OpenAI表示：“网络条件对实时音频有很大影响，在网络条件不稳定的情况下，可靠地将音频从客户端传输到服务器进行大规模处理颇具挑战性。”

OpenAI在AI语音领域的历史充满争议。今年3月，该公司推出了Voice Engine语音克隆平台，以与ElevenLabs竞争，但仅对少数研究人员开放。5月，OpenAI在演示GPT-4o和语音模式后，因女演员斯嘉丽·约翰逊对其中一个名为Sky的语音表示不满，而暂停使用该语音。

9月，OpenAI在美国为付费订阅用户（包括使用ChatGPT Plus、Enterprise、Teams和Edu的用户）推出了ChatGPT高级语音模式。

理想的语音转语音AI技术应能让企业通过语音实现更快速的响应。例如，当客户致电公司的客服平台时，语音转语音功能可以识别客户的声音，理解其需求，并通过AI生成的语音以低延迟进行回复。此外，语音转语音技术还允许用户生成配音，即用户说出台词，但输出的声音并非其本人。提供此类服务的平台包括Replica和ElevenLabs。

本月，OpenAI在开发者日上发布了Realtime API，旨在加快语音助手的开发速度。

关于成本问题，虽然使用语音转语音功能可能会产生高昂费用，但OpenAI计划通过提示缓存来降低实时API的价格。

具体来说，缓存的文本输入费用将降低50%，缓存的音频输入费用将降低80%。

OpenAI在开发者日上还宣布了提示缓存功能，该功能会将频繁请求的上下文和提示保存在模型的内存中，从而减少生成响应所需的令牌数量。降低输入价格可能会吸引更多开发者连接到该API。

值得注意的是，OpenAI并非唯一推出提示缓存的公司。8月，Anthropic为Claude 3.5 Sonnet也推出了提示缓存功能。

文章来源：https://venturebeat.com/ai/openai-expands-realtime-api-with-new-voices-and-cuts-prices-for-developers/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌首席执行官称人工智能投资正在“获得回报”

下一篇小罗伯特·唐尼严正声明：反对漫威使用AI重塑钢铁侠角色

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来