豆包APP更新7.2.0，推出实时语音大模型

2025年01月20日由 daydream 发表 3048 0

豆包APP近期更新至7.2.0版本，推出了一项新的语音功能，名为“实时语音大模型”。此模型集成了语音识别（ASR）、自然语言处理（NLP）和文本转语音（TTS）技术，提供了一体化的端到端语音对话解决方案。相较于传统的分段式处理流程，该模型在表达力、情感传递和响应速度上有所改进，并支持用户在对话过程中随时打断。

微信截图_20250120171015

外部用户反馈显示，在与GPT-4o的对比中，新模型在语音自然度和情绪表现方面获得了更好的评价。值得注意的是，尽管存在一定的优势，但具体的满意度评分和其他详细评测结果未在此提及。

技术上，实时语音大模型采用了多模态数据进行预训练，并通过强化学习算法进一步优化了模型的安全性和对话质量。为了实现更贴近人类交流的体验，研发团队特别关注了情感理解及表达能力的提升，以及如何在保持高智商的同时达到自然的对话效果。

此外，模型还具备实时联网的能力，可以查询最新信息并作出回应。对于安全性的考量，团队采取了多种措施来过滤潜在的非安全内容，确保输出的语音和文本符合安全标准。

在交互特性方面，模型实现了低延迟和流畅的对话体验，这得益于对语音生成和理解过程中的时延问题进行了针对性优化。同时，为了适应不同场景下的需求，模型也考虑到了语气的适当性。

测试结果显示，新模型在拟人度、有用性、情商等方面得到了正面的评价，尤其是在捕捉和回应用户情感信息方面展现了进步。不过，具体的数据和比例没有被提供出来作为参考。

文章来源：https://mp.weixin.qq.com/s/CIiS5WJO7u97sJ9Ui2dtTw

标签：

豆包大模型语音

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇全球首个亿级参数量地震波大模型“谛听”发布新版本

下一篇世界上第一个聊天机器人ELIZA从60年前的计算机代码中复活

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来