阿里巴巴发布Qwen 3:一系列“混合”AI推理模型

2025年04月29日 由 佚名 发表 48 0

屏幕截图2025-04-29094740

中国科技公司阿里巴巴于周一发布了Qwen 3,这是一系列AI模型。阿里巴巴声称其性能与谷歌和OpenAI的顶级模型相当,甚至在某些情况下更胜一筹。

大多数模型已经或即将可以通过AI开发平台Hugging Face和GitHub在“开放”许可下下载。它们的规模从6亿参数到2350亿参数不等。参数数量通常与模型解决问题的能力相关,参数越多,模型表现通常越好。

像Qwen这样的中国本土模型系列的崛起,增加了对OpenAI等美国实验室的压力,要求其提供更强大的AI技术。这也促使政策制定者实施限制措施,旨在限制中国AI公司获取训练模型所需的芯片 的能力。来训练模型。

根据阿里巴巴的说法,Qwen 3模型是“混合”模型,因为它们可以花时间“推理”复杂问题,或快速回答简单请求。推理使模型能够有效地自我核查,类似于OpenAI的o3,但代价是更高的延迟。

“我们无缝集成了思考和非思考模式,为用户提供了控制思考预算的灵活性,”Qwen团队在博客文章中写道。

阿里巴巴表示,Qwen 3模型支持119种语言,并在近36万亿个标记的数据集上进行了训练。标记是模型处理的原始数据单位;100万个标记相当于大约75万个单词。阿里巴巴表示,Qwen 3是在教科书、“问答对”、代码片段等的组合上进行训练的。

阿里巴巴表示,这些改进以及其他改进大大提升了Qwen 3相较于其前身Qwen 2的性能。在Codeforces,一个编程竞赛平台上,最大的Qwen 3模型——Qwen-3-235B-A22B——击败了OpenAI的o3-mini和谷歌的Gemini 2.5 Pro。在最新版本的AIME,一个具有挑战性的数学基准测试,以及BFCL,一个评估模型“推理”问题能力的测试中,Qwen-3-235B-A22B也优于o3-mini。

但Qwen-3-235B-A22B尚未公开发布——至少目前还没有。

最大的公开Qwen 3模型,Qwen3-32B,仍然与许多专有和开放的AI模型竞争,包括中国AI实验室DeepSeek的R1。Qwen3-32B在多个测试中超过了OpenAI的o1模型,包括一个名为LiveBench的准确性基准测试。

阿里巴巴表示,Qwen 3在工具调用能力以及遵循指令和复制特定数据格式方面“表现出色”。除了发布可下载的模型外,Qwen 3还可以从包括Fireworks AI和Hyperbolic在内的云提供商处获得。

AI云主机Baseten的联合创始人兼CEO Tuhin Srivastava表示,Qwen 3是开放模型与OpenAI等闭源系统保持同步趋势中的又一个例子。

“美国正在加倍限制对中国的芯片销售和从中国的采购,但像Qwen 3这样先进且开放的模型[…]无疑将在国内使用,”他在一份声明中告诉TechCrunch。“这反映了企业既在构建自己的工具,也在通过Anthropic和OpenAI等闭源公司购买现成工具的现实。”

文章来源:https://techcrunch.com/2025/04/28/alibaba-unveils-qwen-3-a-family-of-hybrid-ai-reasoning-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消