DeepSeek开源周第三天:开源矩阵乘法库DeepGEMM

2025年02月26日 由 daydream 发表 2779 0

在开源周的第三天,DeepSeek团队公开了其最新的矩阵乘法库——DeepGEMM。DeepGEMM是一个针对FP8(8位浮点数)通用矩阵乘法(GEMM)进行优化的库,特别为NVIDIA Hopper架构进行了定制。该库旨在提供简洁高效的解决方案,支持普通和混合专家(MoE)分组的GEMM计算。


微信截图_20250226094251


DeepGEMM的核心优势在于其轻量级设计和高性能表现。该库采用CUDA编写,无需在安装时进行预编译,而是利用轻量级的即时编译(JIT)模块在运行时动态生成所有内核。这一设计降低了运维的复杂度,同时确保了代码的灵活性和适应性。


在性能方面,DeepGEMM在NVIDIA H800 GPU上展现出了卓越的计算能力。在普通GEMM计算中(M=64, N=2112, K=7168),其性能达到了206 TFLOPS,相比CUTLASS 3.6的优化实现,加速比高达2.7倍。在MoE分组GEMM计算中,DeepGEMM的加速比也稳定在1.1至1.2倍之间。


DeepGEMM在技术创新方面也取得了显著成果。它首次引入了CUDA核心二级累加机制,有效解决了FP8计算中的精度问题。同时,该库还支持非对齐块大小(如112),进一步提升了SM(流多处理器)的利用率。此外,DeepGEMM还深度整合了Hopper架构的TMA(Tensor Memory Accelerator)加速技术,实现了数据异步传输与计算的重叠,从而进一步提升了计算效率。


在应用场景方面,DeepGEMM专为DeepSeek-V3/R1等大模型设计,支持密集矩阵与MoE分组计算,适用于推理和训练等多种场景。开发者只需具备Python 3.8+和CUDA 12.8+的环境,即可快速部署该库。


值得注意的是,DeepGEMM采用了MIT许可证进行开源,代码托管在GitHub平台上。这一举措不仅为AI研究者提供了Hopper架构优化的范本,也为社区贡献者开放了优化空间,鼓励更多开发者参与矩阵计算技术的共同推进。


尽管DeepGEMM在某些特定形状上的表现可能不如专家调优库,但其简洁的设计、高效的性能和创新的优化技术,使其成为学习Hopper FP8矩阵乘法和优化技术的宝贵资源。DeepSeek-AI团队表示,期待更多开发者加入,共同推动矩阵计算技术的持续进步。


相关信息:

DeepSeek启动开源周,发布了其首个开源项目——FlashMLA | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

DeepSeek开源周第二天:发布MoE模型通信库DeepEP | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

文章来源:https://github.com/deepseek-ai/DeepGEMM
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消