通义千问Qwen2.5-Omni-7B大模型正式开源

2025年03月28日由 daydream 发表 1920 0

通义系列模型近日推出了首个端到端全模态大模型——Qwen2.5-Omni-7B，并已正式开源。该模型具备同时处理文本、图像、音频和视频等多种输入的能力，并能实时生成文本与自然语音合成输出。

微信截图_20250328104830

在OmniBench等多模态融合任务测评中，Qwen2.5-Omni的表现刷新了业界纪录，全面超越了Google的Gemini-1.5-Pro等同类模型。其以接近人类的多感官方式“立体”认知世界，并能通过音视频识别情绪，在复杂任务中给出更智能、更自然的反馈与决策。

Qwen2.5-Omni采用了通义团队首创的Thinker-Talker双核架构，以及Position Embedding融合音视频技术和位置编码算法TMRoPE。这些创新技术使得Qwen2.5-Omni能够支持多种输入形式，并实时生成文本与自然语音响应。

值得一提的是，Qwen2.5-Omni在同等规模的单模态模型权威基准测试中展现出了优异的全模态性能。其在语音理解、图片理解、视频理解、语音生成等领域的测评分数均领先于专门的Audio或VL模型，且语音生成测评分数达到了与人类持平的能力。

相较于数千亿参数的闭源大模型，Qwen2.5-Omni以7B的小尺寸使得全模态大模型在产业上的广泛应用成为可能。该模型已在魔搭社区和Hugging Face同步开源，用户也可以在Qwen Chat上直接体验。

此外，通义团队自2023年起已陆续开发了覆盖不同参数规模的200多款全尺寸大模型，包括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等全模态类型。截至目前，海内外AI开源社区中千问Qwen的衍生模型数量已突破10万。

文章来源：https://mp.weixin.qq.com/s/ih5sDrlKZwt2F-0O4PE5KQ

标签：

通义千问大模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Anthropic研究人员揭示LLM“思考”的新发现

下一篇华为ModelEngine全流程AI开发工具链正式开源

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市