DeepSeek-V3以低成本实现前沿AI性能

2024年12月30日由 daydream 发表 1262 0

DeepSeek近日发布了其最新大型语言模型DeepSeek-V3。据其公布的基准测试结果，该模型已成为目前最强大的开源大型语言模型。令人瞩目的是，尽管其训练成本仅为560万美元，远低于大型科技公司通常的投入，但其性能却能与领先的非开源模型相媲美。

微信截图_20241230100342

DeepSeek-V3的训练仅使用了280万GPU小时，成本约为560万美元，远低于竞争对手。在各种基准测试中，该模型的性能与GPT-4和Claude 3.5相当，尤其在数学和编程任务上表现出色。其高效性得益于创新的架构和训练技术，包括一种名为“无辅助损失负载均衡”的新型训练方法。

值得注意的是，DeepSeek作为一家规模较小的初创企业，能够在有限的预算下取得这一成就。OpenAI的创始成员Andrej Karpathy在社交媒体上表示，DeepSeek以极低的预算训练出前沿水平的大型语言模型，并开源其权重，这看似轻而易举。据悉，DeepSeek完全依靠其对冲基金业务自筹资金，未寻求任何外部投资。

DeepSeek-V3的技术核心是采用混合专家（Mixture-of-Experts，MoE）架构，总参数达6710亿，但每个标记仅激活370亿参数。这种选择性激活方法与创新训练技术的结合，使模型在保持高效的同时实现了高性能。特别是在数学推理和编程任务上，DeepSeek-V3有时甚至超越了OpenAI和Anthropic等业界领先者。

微信截图_20241230101305

DeepSeek表示，他们采用了FP8混合精度训练和高效的管道并行性等技术，显著降低了计算需求。相比之下，Meta的LLaMA 3模型训练需要约3080万GPU小时。这意味着DeepSeek-V3在训练效率上比LLaMA 3高出约11倍。

考虑到当前一些最大的AI训练集群使用约10万个GPU，训练成本可能高达数十亿美元，DeepSeek-V3的成就更加引人注目。该模型仅使用2048个H800 GPU在大约两个月内完成训练，表明高效的架构和训练方法能够显著减少前沿AI开发所需的资源。

然而，DeepSeek-V3的成功也引发了一些争议。有人质疑其训练数据是否包含来自专有模型（如GPT-4或Claude 3.5 Sonnet）的数据。如果属实，这将违反服务条款协议，即所谓的“ToS洗钱”。

尽管如此，DeepSeek-V3在Hugging Face平台上的开源发布仍符合行业推动AI能力民主化的广泛趋势。其无辅助损失负载均衡策略和多标记预测（MTP）技术为训练效率和推理速度设立了新的基准。

对于AI行业而言，DeepSeek-V3可能预示着大型语言模型开发方式的潜在范式转变。这一成就表明，通过巧妙的工程设计和高效的训练方法，可能无需以前认为所需的大规模计算资源就能实现前沿的AI能力。

随着行业对这些发展的消化，DeepSeek-V3的成功可能会促使人们重新评估现有的AI模型开发方法。随着开源模型与非开源模型之间的差距不断缩小，公司可能需要在日益激烈的竞争环境中重新评估其战略和价值主张。

文章来源：https://www.maginative.com/article/deepseek-v3-achieves-frontier-ai-performance-at-a-fraction-of-the-cost/

标签：

DeepSeek AI 大型语言模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 DRT-01模型：腾讯研究院推出文学翻译新工具

下一篇 Hugging Face推出SmolAgents：三行代码构建智能代理

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来