阿里巴巴集团控股有限公司的股价今天上涨超过8%,因为该公司发布了一款性能可与DeepSeek-R1媲美的推理模型。
新模型QwQ-32B已于周三开源。
R1由多个神经网络组成,总共有6710亿个参数。当模型接收到查询时,它只使用其中一个神经网络来生成答案。实际上,这意味着R-1在任何给定时间只激活其6710亿参数中的370亿个。阿里巴巴的新QwQ-32B模型要小得多:公司表示该算法总共有325亿个参数。
QwQ-32B基于支撑大多数大型语言模型的Transformer架构。基于Transformer的LLM使用一种称为注意力的机器学习技术来推断句子的含义。通过使用注意力,神经网络不仅可以在做出决策时考虑多个数据点,还可以优先考虑最重要的那些。
对于这个模型,阿里巴巴对原始Transformer架构进行了多项修改。其中一个主要新增功能是旋转位置编码。这一功能使LLM能够更彻底地理解其接收的文本片段之间的关系,从而有助于提高输出质量。
它可以处理最多131,072个标记的提示。一个标记对应几个字符。阿里巴巴表示,该模型在推理任务方面特别擅长,例如编写代码、解决数学问题和在外部应用程序中执行任务。
公司使用一种称为强化学习的方法开发了QwQ-32B。在强化学习项目中,研究人员为AI模型提供一组训练任务,并委托第二个AI模型检查答案。当正在训练的LLM正确完成任务时,它会获得帮助指导学习过程的积分。
阿里巴巴通过两次训练会话开发了QwQ-32B。第一次会话专注于教授模型数学和编码技能。为了支持学习过程,阿里巴巴设置了一台服务器,在训练期间运行QwQ-32B生成的代码并检查其错误。
在第二次训练会话中,公司磨练了QwQ-32B的通用问题解决能力。第二次会话遵循了一个相对简单的工作流程。尽管如此,它不仅提高了模型的问题解决技能,还增强了其将输出与用户指令对齐的能力。
根据阿里巴巴的说法,QwQ-32B在用于比较LLM的五个基准测试中有三个超越了R1。前者在衡量LLM与外部系统交互能力的基准测试中取得了最大的分数差异,领先6%。阿里巴巴使用的另外两个测试评估了LLM的问答技能和将输出与用户指令对齐的能力。
QwQ-32B的发布是在阿里巴巴承诺在未来三年内在AI基础设施上投入3800亿元人民币(约合530亿美元)之后的几天。这比公司在过去十年中对AI及其公共云平台的投资还要多。
其他中国科技巨头也在优先发展LLM。上周,腾讯控股有限公司推出了一款名为Hunyuan Turbo S的“快速思考”推理模型。它能在不到一秒的时间内回答提示,其输出质量可与R1的前身DeepSeek-V3媲美。