通义灵码推出新模型选择功能,Qwen2.5-Max表现亮眼

2025年03月04日 由 daydream 发表 3910 0

近日,通义灵码平台更新了其模型选择功能,新增了DeepSeek满血版V3和R1模型,并正式上线了Qwen2.5-Max模型。Qwen2.5-Max采用了超过20万亿token的预训练数据,并结合了专门设计的后训练方案进行深度训练。


微信截图_20250304111838


用户现在可以通过通义灵码智能问答和AI程序员窗口的输入框,在下拉菜单中选择所需的模型版本。这一更新为用户提供了更多样化的模型选择,以适应不同的应用场景和需求。


在多项基准测试中,Qwen2.5-Max展现出了卓越的性能。在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等测试中,Qwen2.5-Max的表现优于业界其他领先模型,包括DeepSeek V3、GPT-4o(尽管无法直接访问其基座模型)和Claude-3.5-Sonnet。此外,在MMLU-Pro等其他评估标准中,Qwen2.5-Max也取得了具有竞争力的成绩。


在与开源模型的对比中,Qwen2.5-Max同样表现出色。由于无法直接对比闭源模型的基座版本,通义千问将Qwen2.5-Max与DeepSeek V3(领先的开源MoE模型)、Llama-3.1-405B(最大的开源稠密模型)以及Qwen2.5-72B(同样位列开源稠密模型前列)进行了比较。结果显示,Qwen2.5-Max在这些对比中同样具有显著优势。


值得注意的是,在第三方基准测试平台Chatbot Arena最新公布的大模型盲测榜单中,Qwen2.5-Max以1332分的成绩位列全球第七名,同时也是非推理类中国大模型中的佼佼者。在数学和编程等单项能力测试中,Qwen2.5-Max排名第一;在硬提示(Hard prompts)方面的测试中,排名第二。


ChatBot Arena官方对Qwen2.5-Max的评价指出,该模型在多个领域,特别是专业技术领域(如编程、数学等)表现出强劲的实力。这一评价进一步印证了Qwen2.5-Max在高性能大模型领域的领先地位。


目前,通义灵码平台已经内置了Qwen2.5-Max模型,用户可以通过下载通义灵码插件来体验其强大的编程能力。这一更新无疑将为用户带来更加高效、智能的使用体验。

文章来源:https://mp.weixin.qq.com/s/51fTnZyZS_6shyYwl27zKg
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消