豆包APP更新7.2.0,推出实时语音大模型

2025年01月20日 由 daydream 发表 1809 0

豆包APP近期更新至7.2.0版本,推出了一项新的语音功能,名为“实时语音大模型”。此模型集成了语音识别(ASR)、自然语言处理(NLP)和文本转语音(TTS)技术,提供了一体化的端到端语音对话解决方案。相较于传统的分段式处理流程,该模型在表达力、情感传递和响应速度上有所改进,并支持用户在对话过程中随时打断。


微信截图_20250120171015


外部用户反馈显示,在与GPT-4o的对比中,新模型在语音自然度和情绪表现方面获得了更好的评价。值得注意的是,尽管存在一定的优势,但具体的满意度评分和其他详细评测结果未在此提及。


技术上,实时语音大模型采用了多模态数据进行预训练,并通过强化学习算法进一步优化了模型的安全性和对话质量。为了实现更贴近人类交流的体验,研发团队特别关注了情感理解及表达能力的提升,以及如何在保持高智商的同时达到自然的对话效果。


此外,模型还具备实时联网的能力,可以查询最新信息并作出回应。对于安全性的考量,团队采取了多种措施来过滤潜在的非安全内容,确保输出的语音和文本符合安全标准。


在交互特性方面,模型实现了低延迟和流畅的对话体验,这得益于对语音生成和理解过程中的时延问题进行了针对性优化。同时,为了适应不同场景下的需求,模型也考虑到了语气的适当性。


测试结果显示,新模型在拟人度、有用性、情商等方面得到了正面的评价,尤其是在捕捉和回应用户情感信息方面展现了进步。不过,具体的数据和比例没有被提供出来作为参考。

文章来源:https://mp.weixin.qq.com/s/CIiS5WJO7u97sJ9Ui2dtTw
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消