近日,通义灵码平台更新了其模型选择功能,新增了DeepSeek满血版V3和R1模型,并正式上线了Qwen2.5-Max模型。Qwen2.5-Max采用了超过20万亿token的预训练数据,并结合了专门设计的后训练方案进行深度训练。
用户现在可以通过通义灵码智能问答和AI程序员窗口的输入框,在下拉菜单中选择所需的模型版本。这一更新为用户提供了更多样化的模型选择,以适应不同的应用场景和需求。
在多项基准测试中,Qwen2.5-Max展现出了卓越的性能。在Arena-Hard、LiveBench、LiveCodeBench和GPQA-Diamond等测试中,Qwen2.5-Max的表现优于业界其他领先模型,包括DeepSeek V3、GPT-4o(尽管无法直接访问其基座模型)和Claude-3.5-Sonnet。此外,在MMLU-Pro等其他评估标准中,Qwen2.5-Max也取得了具有竞争力的成绩。
在与开源模型的对比中,Qwen2.5-Max同样表现出色。由于无法直接对比闭源模型的基座版本,通义千问将Qwen2.5-Max与DeepSeek V3(领先的开源MoE模型)、Llama-3.1-405B(最大的开源稠密模型)以及Qwen2.5-72B(同样位列开源稠密模型前列)进行了比较。结果显示,Qwen2.5-Max在这些对比中同样具有显著优势。
值得注意的是,在第三方基准测试平台Chatbot Arena最新公布的大模型盲测榜单中,Qwen2.5-Max以1332分的成绩位列全球第七名,同时也是非推理类中国大模型中的佼佼者。在数学和编程等单项能力测试中,Qwen2.5-Max排名第一;在硬提示(Hard prompts)方面的测试中,排名第二。
ChatBot Arena官方对Qwen2.5-Max的评价指出,该模型在多个领域,特别是专业技术领域(如编程、数学等)表现出强劲的实力。这一评价进一步印证了Qwen2.5-Max在高性能大模型领域的领先地位。
目前,通义灵码平台已经内置了Qwen2.5-Max模型,用户可以通过下载通义灵码插件来体验其强大的编程能力。这一更新无疑将为用户带来更加高效、智能的使用体验。