DeepSeek开源周第二天:发布MoE模型通信库DeepEP

2025年02月25日 由 daydream 发表 1146 0

在DeepSeek开源周活动的第二天,首个专为混合专家(MoE)模型训练和推理设计的开源EP(专家并行)通信库DeepEP正式发布。该库由DeepSeek团队推出,旨在提升MoE模型在处理大规模数据和复杂任务时的通信效率。


微信截图_20250225115442


DeepEP针对MoE模型的特点进行了优化,提供了高效的全对全GPU通信内核,适用于分发和合并操作。这些内核支持节点内和节点间的NVLink和RDMA通信,确保数据在不同专家之间的高效传输。特别是在处理DeepSeek-V3论文中提出的组限制门控算法时,DeepEP展现了出色的性能。


在数据格式方面,DeepEP支持FP8和BF16等低精度格式,这有助于提升计算效率并降低内存需求。此外,该库还引入了基于Hook的通信-计算重叠方法,该方法不占用GPU的计算资源,从而最大化计算效率。


在性能表现上,DeepEP在高吞吐量和低延迟方面均取得了显著成果。在H800 GPU和CX7 InfiniBand 400 Gb/s RDMA网络卡上的测试中,内节点通信的瓶颈带宽达到了153 GB/s(分发)和158 GB/s(合并),而跨节点通信的瓶颈带宽则在43-47 GB/s之间。在低延迟方面,DeepEP专为推理解码设计,使用纯RDMA技术,使得在处理8个专家时的分发操作延迟为163微秒,合并操作延迟为318微秒。随着专家数量的增加,延迟略有上升,但在256个专家时,分发和合并操作的延迟仍保持在较低水平。


在系统兼容性方面,DeepEP主要与InfiniBand网络兼容,并支持在收敛以太网(RoCE)上运行。此外,该库还需要Hopper架构的GPU、Python 3.8及以上版本、CUDA 12.3及以上版本以及PyTorch 2.1及以上版本的支持。


DeepEP的发布标志着DeepSeek在开源社区中的又一重要进展,为MoE模型的研究和应用提供了有力的支持。未来,随着DeepSeek开源周的继续进行,预计还将有更多与MoE模型相关的开源工具和库被推出,进一步推动该领域的发展。


相关信息:

DeepSeek启动开源周,发布了其首个开源项目——FlashMLA | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

文章来源:https://www.atyun.com/65651.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消