上周,新的Empathic Voice Interface 2(EVI 2)正式发布,并引入了一系列增强的功能,旨在提高自然度、情感响应能力和可定制性,同时显著降低开发人员和企业的成本。通过API,EVI 2的延迟降低了40%,成本降低了30%。
“我们希望开发人员能够将这项技术融入任何应用程序中,创建他们想要的品牌声音,并根据用户需求进行调整,以便声音听起来值得信赖且个性化,”科文(Cowen)在上周与VentureBeat的视频通话中表示。
事实上,科文告诉VentureBeat,他正在看到并希望看到更多企业不再将用户从他们的应用程序中踢出,而是让他们使用配备EVI的AI语音助手来处理技术和客户服务问题。
他提到,特别是由于EVI 2的设计,现在对于最终用户来说,在应用程序内直接连接到由EVI 2驱动的语音助手成为可能,并且在许多情况下,这是一种更好的用户体验。如果正确使用Hume的开发工具将EVI 2与客户的底层应用程序连接起来,那么EVI 2驱动的语音助手现在可以代表用户获取信息或执行操作,而无需连接到任何外部电话号码。
“开发人员开始意识到,他们不必将语音放在电话线上;他们可以将其放在应用程序内的任何地方,”科文告诉VentureBeat。
例如,如果我想在线账户中更改地址信息,我可以简单地使用集成后的EVI 2来要求它为我更改地址,而不是让它引导我完成所有步骤和屏幕。
适时的发布
EVI 2的发布时机对Hume特别有利。虽然它远没有OpenAI或潜在的竞争对手Anthropic那样广为人知——后者据报道正在重新打造其投资者亚马逊的Alexa语音助手以进行发布——但Hume已经领先于Anthropic和OpenAI,推出了一个功能强大、前沿的类人语音助手,企业现在可以立即使用。
相比之下,OpenAI在5月份展示的由GPT-4o模型支持的ChatGPT高级语音模式目前仍仅对有限数量的用户开放,需要等待名单。此外,科文认为EVI 2在检测和响应用户情绪方面实际上更胜一筹,能够以自己的情感化表达进行回应。
“EVI 2是完全端到端的。它只是接收音频信号并输出音频信号,这更像是[OpenAI的]GPT for voice的工作方式,”他告诉VentureBeat。也就是说,EVI 2和GPT-4o都将音频信号波形和数据直接转换为令牌,而不是先将它们转录为文本并输入到语言模型中。第一代EVI模型使用了后者的方法——但在VentureBeat的独立演示使用中,它仍然非常快速且响应灵敏。
对于希望构建语音AI功能以脱颖而出、降低成本或通过使用语音AI代替人工呼叫中心来保持低成本的开发人员和企业来说,Hume的EVI 2可能是一个有吸引力的选择。
EVI 2的会话式AI进步
科文和Hume声称,EVI 2能够实现更快、更流畅的对话,响应时间不到一秒,并提供多种语音定制选项。
他们说,EVI 2旨在实时预测和适应用户偏好,使其成为从客户服务机器人到虚拟助手的广泛应用的理想选择。
EVI 2的关键改进包括一个先进的语音生成系统,该系统提高了语音的自然度和清晰度,以及情感智能,有助于模型理解用户的语气并相应地调整其响应。
EVI 2还支持语音调制等功能,允许开发人员根据音高、鼻音和性别等参数对语音进行微调,使其既灵活又可定制,同时避免了语音克隆的风险。
在VentureBeta,我们也看到并报道了许多专有和开源的语音AI模型。在网络上,人们发布了两个或多个语音AI模型进行对话的例子,导致了一些奇怪且令人不安的结果,比如痛苦的尖叫。
当我向科文询问这些例子时,他看起来有些好笑,但并不过度担心它们在Hume身上发生。
“这些确实是这些模型存在的问题。你必须用正确的数据来消除这些问题,而我们非常擅长这一点,”他告诉我。“也许偶尔有人试图欺骗它,但这很少见。”
此外,科文表示,Hume没有计划提供“语音克隆”,即仅通过几秒钟的样本就复制说话者的声音,以便让其说出任何给定的文本。