知名私募巨头幻方量化旗下的人工智能公司DeepSeek正式开源了其最新版AI模型——DeepSeek V3。该模型在多语言编程能力上取得了显著进步,并在多项评测中表现出色。
DeepSeek V3采用了高达6850亿参数的混合专家(MoE)架构,包含256个专家,通过sigmoid路由方式,每次选取前8个专家参与计算。这种设计使得模型能够更高效地处理复杂任务,同时提高了响应速度和处理效率。据悉,DeepSeek-V3的生成吐字速度从20 TPS大幅提高至60 TPS,相比V2.5模型实现了3倍的提升,在处理多模态数据和长文本时尤为突出。
在功能方面,DeepSeek V3具备自然语言查询处理和代码生成能力,可以帮助开发者快速生成代码片段,提高开发效率。此外,该模型还支持FP8混合精度训练,设计有DualPipe算法,优化了跨节点AIl-to-AI通信,进一步提高了训练效率。在预训练和后训练阶段,DeepSeek V3在14.8T tokens上进行预训练,并通过两阶段上下文扩展,将上下文窗口从4K扩展到128K,同时进行了监督式微调和强化学习。
在性能评估方面,DeepSeek V3在多个标准和开放式基准测试中表现出色,尤其在代码和数学领域。聊天版本的DeepSeek-V3也超越了其他开源模型,并与领先的闭源模型性能相当。值得一提的是,该模型的训练成本仅为2.788M H800 GPU小时,总成本为5.576M美元,具有较高的成本效益。
从技术原理来看,DeepSeek V3的混合专家架构使得每个专家都能处理特定的任务或数据类型,并通过路由机制动态选择部分专家进行计算。这种设计不仅提高了模型的计算效率,还减少了不必要的计算和内存消耗。在工作机制上,DeepSeek V3分为计划、搜索、提取和丰富等关键阶段,通过大型语言模型高效识别并提取内容中的特定信息,并进行进一步的内容填充。
此外,DeepSeek V3还具备多模态能力,使用OCRv12技术更好地保留图片中的文字、格式排版和公式。在流式渲染优化方面,网页端采用流式输出,但由于每次渲染需要重新解析Markdown,当前60tps渲染速度可能会存在一定的延迟。
在多项评测中,DeepSeek V3也取得了优异的成绩。在LiveBench测试中,该模型的得分非常高,表明能快速响应用户的查询并提供反馈。在教育基准测试中,DeepSeek-V3在MMLU和MMLU-Pro基准测试中取得了较高的准确率,超越了其他所有开源模型,并与领先的闭源模型性能相当。在事实性基准测试中,该模型在中文事实性知识方面超过了GPT-4o和Claude-Sonnet-3.5。在代码、数学和推理基准测试中,DeepSeek-V3在数学相关基准测试中表现最佳,在编程相关任务中也取得了优异的成绩。
综上所述,DeepSeek V3作为幻方量化旗下AI公司深度求索开源的最新版AI模型,在多语言编程能力、性能评估、技术原理和多项评测中都展现出了出色的表现。