DeepSeek开源周第三天：开源矩阵乘法库DeepGEMM

2025年02月26日由 daydream 发表 2917 0

在开源周的第三天，DeepSeek团队公开了其最新的矩阵乘法库——DeepGEMM。DeepGEMM是一个针对FP8（8位浮点数）通用矩阵乘法（GEMM）进行优化的库，特别为NVIDIA Hopper架构进行了定制。该库旨在提供简洁高效的解决方案，支持普通和混合专家（MoE）分组的GEMM计算。

微信截图_20250226094251

DeepGEMM的核心优势在于其轻量级设计和高性能表现。该库采用CUDA编写，无需在安装时进行预编译，而是利用轻量级的即时编译（JIT）模块在运行时动态生成所有内核。这一设计降低了运维的复杂度，同时确保了代码的灵活性和适应性。

在性能方面，DeepGEMM在NVIDIA H800 GPU上展现出了卓越的计算能力。在普通GEMM计算中（M=64, N=2112, K=7168），其性能达到了206 TFLOPS，相比CUTLASS 3.6的优化实现，加速比高达2.7倍。在MoE分组GEMM计算中，DeepGEMM的加速比也稳定在1.1至1.2倍之间。

DeepGEMM在技术创新方面也取得了显著成果。它首次引入了CUDA核心二级累加机制，有效解决了FP8计算中的精度问题。同时，该库还支持非对齐块大小（如112），进一步提升了SM（流多处理器）的利用率。此外，DeepGEMM还深度整合了Hopper架构的TMA（Tensor Memory Accelerator）加速技术，实现了数据异步传输与计算的重叠，从而进一步提升了计算效率。

在应用场景方面，DeepGEMM专为DeepSeek-V3/R1等大模型设计，支持密集矩阵与MoE分组计算，适用于推理和训练等多种场景。开发者只需具备Python 3.8+和CUDA 12.8+的环境，即可快速部署该库。

值得注意的是，DeepGEMM采用了MIT许可证进行开源，代码托管在GitHub平台上。这一举措不仅为AI研究者提供了Hopper架构优化的范本，也为社区贡献者开放了优化空间，鼓励更多开发者参与矩阵计算技术的共同推进。

尽管DeepGEMM在某些特定形状上的表现可能不如专家调优库，但其简洁的设计、高效的性能和创新的优化技术，使其成为学习Hopper FP8矩阵乘法和优化技术的宝贵资源。DeepSeek-AI团队表示，期待更多开发者加入，共同推动矩阵计算技术的持续进步。

DeepSeek开源周第二天：发布MoE模型通信库DeepEP | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

DeepSeek开源周第三天：开源矩阵乘法库DeepGEMM | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

DeepSeek开源周第四天：宣布优化的并行策略 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

DeepSeek开源周第五天：3FS并行文件系统亮相 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

文章来源：https://github.com/deepseek-ai/DeepGEMM

标签：

DeepSeek DeepGEMM

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇阿里巴巴推出QwQ-Max深度推理模型预览版

下一篇微软发布新一代Phi AI模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来