DeepSeek发布新型推理优化大型语言模型R1系列

2025年01月21日 由 daydream 发表 4091 0

近日,中国人工智能企业DeepSeek推出了一款专为推理任务设计的大型语言模型系列——R1系列,并将算法的源代码公开在了Hugging Face平台上。


微信截图_20250121093835


R1系列主要包括R1和R1-Zero两种算法。据DeepSeek介绍,R1在多个推理基准测试中超越了OpenAI的o1模型。而R1-Zero虽然在能力上稍逊一筹,但在机器学习研究领域却可能具有重大意义。


这两款大型语言模型都采用了混合专家(Mixture of Experts,MoE)架构,包含6710亿参数。MoE模型由多个神经网络组成,每个网络都针对不同的任务集进行优化。当模型处理一个提示时,一个称为路由器的机制会将查询发送到最适合处理它的神经网络。


MoE架构的主要优势在于降低了推理成本。在MoE模型中,用户输入的提示不会激活整个AI,而只会激活生成响应的特定神经网络。因此,R1和R1-Zero在回答提示时,激活的参数不到其总参数的十分之一。


在训练R1-Zero时,DeepSeek采用了与通常的推理模型训练不同的方法。一般来说,推理优化的大型语言模型主要通过强化学习和监督微调两种方法进行训练。强化学习通过试错来教AI模型执行任务,而监督微调则通过提供任务执行示例来提高AI的输出质量。


然而,在训练R1-Zero时,DeepSeek跳过了监督微调阶段。尽管如此,该模型仍然具备了如将复杂任务分解为简单子步骤等推理技能。这是首次验证仅通过强化学习就能激励大型语言模型获得推理能力,而无需监督微调的研究。


尽管R1-Zero具有高级功能集,但其输出质量有限,存在“无限重复、可读性差和语言混合”等问题。为了解决这些限制,DeepSeek开发了R1,这是R1-Zero的增强版,采用了修改后的训练流程,包括之前跳过的监督微调阶段,从而显著提高了输出质量。


DeepSeek使用近二十项基准测试对R1与四种流行的大型语言模型进行了比较。结果显示,R1在多个基准测试中超越了OpenAI的推理优化模型o1。在o1得分较高的基准测试中,R1的得分差距也不到5%。


值得一提的是,在LiveCodeBench这一基准测试中,R1的表现优于o1。LiveCodeBench是一个包含编程任务的集合,定期更新新的练习题,这降低了AI模型在公共网络上找到现成答案的可能性。


此外,DeepSeek还公开了一系列从R1“蒸馏”而来的、能力较弱但硬件效率更高的模型。这些模型基于Llama和Qwen开源大型语言模型家族,参数规模从15亿到700亿不等。其中,R1-Distill-Qwen-32B模型在多个基准测试中超越了OpenAI-o1-mini的缩小版。

文章来源:https://siliconangle.com/2025/01/20/deepseek-open-sources-r1-reasoning-model-series/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消