通义千问Qwen2.5-Omni-7B大模型正式开源

2025年03月28日 由 daydream 发表 1920 0

通义系列模型近日推出了首个端到端全模态大模型——Qwen2.5-Omni-7B,并已正式开源。该模型具备同时处理文本、图像、音频和视频等多种输入的能力,并能实时生成文本与自然语音合成输出。


微信截图_20250328104830


在OmniBench等多模态融合任务测评中,Qwen2.5-Omni的表现刷新了业界纪录,全面超越了Google的Gemini-1.5-Pro等同类模型。其以接近人类的多感官方式“立体”认知世界,并能通过音视频识别情绪,在复杂任务中给出更智能、更自然的反馈与决策。


Qwen2.5-Omni采用了通义团队首创的Thinker-Talker双核架构,以及Position Embedding融合音视频技术和位置编码算法TMRoPE。这些创新技术使得Qwen2.5-Omni能够支持多种输入形式,并实时生成文本与自然语音响应。


值得一提的是,Qwen2.5-Omni在同等规模的单模态模型权威基准测试中展现出了优异的全模态性能。其在语音理解、图片理解、视频理解、语音生成等领域的测评分数均领先于专门的Audio或VL模型,且语音生成测评分数达到了与人类持平的能力。


相较于数千亿参数的闭源大模型,Qwen2.5-Omni以7B的小尺寸使得全模态大模型在产业上的广泛应用成为可能。该模型已在魔搭社区和Hugging Face同步开源,用户也可以在Qwen Chat上直接体验。


此外,通义团队自2023年起已陆续开发了覆盖不同参数规模的200多款全尺寸大模型,包括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等全模态类型。截至目前,海内外AI开源社区中千问Qwen的衍生模型数量已突破10万。

文章来源:https://mp.weixin.qq.com/s/ih5sDrlKZwt2F-0O4PE5KQ
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消