周一,提供AI语音克隆和文本转语音API的初创公司ElevenLabs,正式发布了构建对话式AI机器人的能力。
该公司宣布,用户现在可以在ElevenLabs的开发者平台上构建完整的对话代理,包括可定制的变量,如语调、回应长度等。
ElevenLabs此前主要致力于提供不同声音和AI工具,用于文本转语音服务。该公司的增长主管Sam Sklar向TechCrunch透露,许多客户已经利用该功能创建了对话式AI代理。然而,整合知识库和处理客户中断是其中最具挑战性的部分。因此,公司决定为对话机器人构建一个完整的流程。
用户登录ElevenLabs账户后,可以通过选择模板或创建新项目来开始构建对话代理。他们可以选择代理的主要语言、首条消息和系统提示,以确定代理的个性。开发者还需选择大型语言模型(如Gemini、GPT或Claude)、回应的“温度”(决定回应的创造性程度)以及令牌使用限制。
此外,用户还可以调整其他方面,如语音、延迟、稳定性、身份验证标准和与AI代理对话的最大长度。
用户可以为对话机器人添加自己的知识库,如文件、URL或文本块。同时,他们还可以将自定义的大型语言模型(LLM)与机器人集成。ElevenLabs的软件开发工具包(SDK)与Python、JavaScript、React和Swift兼容。该公司还提供WebSocket API,以实现更多自定义功能。
企业还可以设定标准,以收集特定数据项,例如与代理交谈的客户的姓名和电子邮件,以及以自然语言设定的评估标准,以定义通话的成功或失败。
ElevenLabs正在利用其现有的文本转语音流程。该公司需要为新的对话式AI产品开发语音转文本功能。目前,该公司未将语音转文本API作为独立产品提供,但未来可能会这样做,从而与谷歌、微软和亚马逊的语音转文本API,以及OpenAI的Whisper、AssemblyAI、Deepgram、Speechmatics和Gladia等专业API展开竞争。
ElevenLabs正在寻求新一轮融资,估值超过30亿美元。同时,该公司还与其他语音AI初创公司,如Vapi和Retell竞争,这些公司也在构建对话代理。更值得注意的是,ElevenLabs将与OpenAI的实时对话API展开竞争。然而,ElevenLabs认为,其定制功能和模型切换能力将使其相对于OpenAI具有优势。