在开源周的第三天,DeepSeek团队公开了其最新的矩阵乘法库——DeepGEMM。DeepGEMM是一个针对FP8(8位浮点数)通用矩阵乘法(GEMM)进行优化的库,特别为NVIDIA Hopper架构进行了定制。该库旨在提供简洁高效的解决方案,支持普通和混合专家(MoE)分组的GEMM计算。
DeepGEMM的核心优势在于其轻量级设计和高性能表现。该库采用CUDA编写,无需在安装时进行预编译,而是利用轻量级的即时编译(JIT)模块在运行时动态生成所有内核。这一设计降低了运维的复杂度,同时确保了代码的灵活性和适应性。
在性能方面,DeepGEMM在NVIDIA H800 GPU上展现出了卓越的计算能力。在普通GEMM计算中(M=64, N=2112, K=7168),其性能达到了206 TFLOPS,相比CUTLASS 3.6的优化实现,加速比高达2.7倍。在MoE分组GEMM计算中,DeepGEMM的加速比也稳定在1.1至1.2倍之间。
DeepGEMM在技术创新方面也取得了显著成果。它首次引入了CUDA核心二级累加机制,有效解决了FP8计算中的精度问题。同时,该库还支持非对齐块大小(如112),进一步提升了SM(流多处理器)的利用率。此外,DeepGEMM还深度整合了Hopper架构的TMA(Tensor Memory Accelerator)加速技术,实现了数据异步传输与计算的重叠,从而进一步提升了计算效率。
在应用场景方面,DeepGEMM专为DeepSeek-V3/R1等大模型设计,支持密集矩阵与MoE分组计算,适用于推理和训练等多种场景。开发者只需具备Python 3.8+和CUDA 12.8+的环境,即可快速部署该库。
值得注意的是,DeepGEMM采用了MIT许可证进行开源,代码托管在GitHub平台上。这一举措不仅为AI研究者提供了Hopper架构优化的范本,也为社区贡献者开放了优化空间,鼓励更多开发者参与矩阵计算技术的共同推进。
尽管DeepGEMM在某些特定形状上的表现可能不如专家调优库,但其简洁的设计、高效的性能和创新的优化技术,使其成为学习Hopper FP8矩阵乘法和优化技术的宝贵资源。DeepSeek-AI团队表示,期待更多开发者加入,共同推动矩阵计算技术的持续进步。
相关信息:
DeepSeek启动开源周,发布了其首个开源项目——FlashMLA | ATYUN.COM 官网-人工智能教程资讯全方位服务平台
DeepSeek开源周第二天:发布MoE模型通信库DeepEP | ATYUN.COM 官网-人工智能教程资讯全方位服务平台