DeepSeek V3开源：6850亿参数模型在多领域评测中脱颖而出

2024年12月27日由 daydream 发表 1264 0

知名私募巨头幻方量化旗下的人工智能公司DeepSeek正式开源了其最新版AI模型——DeepSeek V3。该模型在多语言编程能力上取得了显著进步，并在多项评测中表现出色。

微信截图_20241227092950

DeepSeek V3采用了高达6850亿参数的混合专家（MoE）架构，包含256个专家，通过sigmoid路由方式，每次选取前8个专家参与计算。这种设计使得模型能够更高效地处理复杂任务，同时提高了响应速度和处理效率。据悉，DeepSeek-V3的生成吐字速度从20 TPS大幅提高至60 TPS，相比V2.5模型实现了3倍的提升，在处理多模态数据和长文本时尤为突出。

在功能方面，DeepSeek V3具备自然语言查询处理和代码生成能力，可以帮助开发者快速生成代码片段，提高开发效率。此外，该模型还支持FP8混合精度训练，设计有DualPipe算法，优化了跨节点AIl-to-AI通信，进一步提高了训练效率。在预训练和后训练阶段，DeepSeek V3在14.8T tokens上进行预训练，并通过两阶段上下文扩展，将上下文窗口从4K扩展到128K，同时进行了监督式微调和强化学习。

在性能评估方面，DeepSeek V3在多个标准和开放式基准测试中表现出色，尤其在代码和数学领域。聊天版本的DeepSeek-V3也超越了其他开源模型，并与领先的闭源模型性能相当。值得一提的是，该模型的训练成本仅为2.788M H800 GPU小时，总成本为5.576M美元，具有较高的成本效益。

从技术原理来看，DeepSeek V3的混合专家架构使得每个专家都能处理特定的任务或数据类型，并通过路由机制动态选择部分专家进行计算。这种设计不仅提高了模型的计算效率，还减少了不必要的计算和内存消耗。在工作机制上，DeepSeek V3分为计划、搜索、提取和丰富等关键阶段，通过大型语言模型高效识别并提取内容中的特定信息，并进行进一步的内容填充。

此外，DeepSeek V3还具备多模态能力，使用OCRv12技术更好地保留图片中的文字、格式排版和公式。在流式渲染优化方面，网页端采用流式输出，但由于每次渲染需要重新解析Markdown，当前60tps渲染速度可能会存在一定的延迟。

在多项评测中，DeepSeek V3也取得了优异的成绩。在LiveBench测试中，该模型的得分非常高，表明能快速响应用户的查询并提供反馈。在教育基准测试中，DeepSeek-V3在MMLU和MMLU-Pro基准测试中取得了较高的准确率，超越了其他所有开源模型，并与领先的闭源模型性能相当。在事实性基准测试中，该模型在中文事实性知识方面超过了GPT-4o和Claude-Sonnet-3.5。在代码、数学和推理基准测试中，DeepSeek-V3在数学相关基准测试中表现最佳，在编程相关任务中也取得了优异的成绩。

综上所述，DeepSeek V3作为幻方量化旗下AI公司深度求索开源的最新版AI模型，在多语言编程能力、性能评估、技术原理和多项评测中都展现出了出色的表现。

文章来源：https://www.atyun.com/61302.html

标签：

DeepSeek V3 模型人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 CoMERA框架：突破AI训练效率瓶颈

下一篇智谱公司开源CogAgent-9B：推动GUI交互大模型生态发展

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来