阿里巴巴旗下的Qwen团队推出了QwQ-32B。这是一款拥有320亿参数的新型推理模型,旨在通过强化学习(RL)提升复杂问题解决的性能。
该模型已在Hugging Face和ModelScope上以Apache 2.0许可证开源发布,允许商业和研究使用,企业可直接将其应用于产品和服务中,包括收费产品。
QwQ(Qwen-with-Questions的简称)最初于2024年11月由阿里巴巴推出,作为一款开源推理模型,旨在与OpenAI的o1-preview相竞争。其设计初衷是通过在推理过程中审查和精炼自身响应,增强逻辑推理和规划能力,尤其在数学和编码任务中表现出色。
初版QwQ具备320亿参数和32000个标记的上下文长度,在数学基准测试(如AIME和MATH)以及科学推理任务(如GPQA)中超越了o1-preview。然而,在编程基准测试(如LiveCodeBench)方面,QwQ相较于OpenAI的模型仍有一定差距,并面临语言混合和循环推理等问题。
随着AI领域的快速发展,传统LLM的局限性日益凸显,规模扩张带来的性能提升逐渐减缓。这一变化引发了业界对大型推理模型(LRM)的兴趣,这类模型通过推理时间和自我反思来提高准确性,包括OpenAI的o3系列和来自中国竞争对手DeepSeek的DeepSeek-R1。
自2024年1月DeepSeek-R1发布以来,DeepSeek网站访问量激增,已成为仅次于OpenAI的最受欢迎AI模型提供网站。
阿里巴巴最新推出的QwQ-32B,通过集成RL和结构化自我提问,进一步提升了模型性能。它采用多阶段RL训练方法,以增强数学推理、编码能力和一般问题解决能力。
QwQ-32B与包括DeepSeek-R1在内的领先模型进行了基准测试对比,尽管参数数量较少,但表现出了相当的竞争力。例如,DeepSeek-R1拥有6710亿参数(激活370亿),而QwQ-32B在仅需24GB GPU虚拟内存(Nvidia H100s具备80GB)的情况下,实现了与DeepSeek-R1相似的性能,后者运行需超过1500GB虚拟内存(16块Nvidia A100 GPU)。
QwQ-32B基于因果语言模型架构,并包含多项优化:64层变压器结构,采用RoPE、SwiGLU、RMSNorm和注意力QKV偏置;广义查询注意力机制,查询使用40个注意力头,键值对使用8个;扩展至131072个标记的上下文长度,以更好地处理长序列输入;多阶段训练流程,包括预训练、监督微调和强化学习。
QwQ-32B的RL过程分为两个阶段:首先针对数学和编码任务进行训练,使用准确性验证器和代码执行服务器确保生成答案的正确性;随后进行通用能力提升训练,采用通用奖励模型和基于规则的验证器,以改进指令遵循性、人类对齐度和代理推理能力,同时保持其数学和编码性能。