豆包APP近期更新至7.2.0版本,推出了一项新的语音功能,名为“实时语音大模型”。此模型集成了语音识别(ASR)、自然语言处理(NLP)和文本转语音(TTS)技术,提供了一体化的端到端语音对话解决方案。相较于传统的分段式处理流程,该模型在表达力、情感传递和响应速度上有所改进,并支持用户在对话过程中随时打断。
外部用户反馈显示,在与GPT-4o的对比中,新模型在语音自然度和情绪表现方面获得了更好的评价。值得注意的是,尽管存在一定的优势,但具体的满意度评分和其他详细评测结果未在此提及。
技术上,实时语音大模型采用了多模态数据进行预训练,并通过强化学习算法进一步优化了模型的安全性和对话质量。为了实现更贴近人类交流的体验,研发团队特别关注了情感理解及表达能力的提升,以及如何在保持高智商的同时达到自然的对话效果。
此外,模型还具备实时联网的能力,可以查询最新信息并作出回应。对于安全性的考量,团队采取了多种措施来过滤潜在的非安全内容,确保输出的语音和文本符合安全标准。
在交互特性方面,模型实现了低延迟和流畅的对话体验,这得益于对语音生成和理解过程中的时延问题进行了针对性优化。同时,为了适应不同场景下的需求,模型也考虑到了语气的适当性。
测试结果显示,新模型在拟人度、有用性、情商等方面得到了正面的评价,尤其是在捕捉和回应用户情感信息方面展现了进步。不过,具体的数据和比例没有被提供出来作为参考。