DeepSeek启动开源周，发布了其首个开源项目——FlashMLA

2025年02月24日由 daydream 发表 1695 0

DeepSeek宣布正式启动“开源周”活动，并率先发布了其首个开源项目——FlashMLA。该项目是一个针对NVIDIA Hopper架构GPU进行优化的高效多头线性注意力（Multi-Head Linear Attention，MLA）解码内核，特别设计用于处理可变长度的序列数据。

微信截图_20250224113837

FlashMLA的推出，得益于flashAttention 2&3以及Cutlass项目的启发，旨在通过技术创新提升内存和计算效率。它支持CUDA 12.3及以上版本以及PyTorch 2.0及以上版本，为开发者提供了强大的技术支持。

在技术层面，FlashMLA采用了BF16数据格式，以平衡性能和效率。同时，它还引入了页式键值（Key-Value，KV）缓存机制，块大小设置为64，实现了更为精细的内存管理。这一机制在处理大规模数据时，能够显著提升内存使用效率。

在硬件性能表现上，FlashMLA在NVIDIA H800 SXM5 GPU上展现出了卓越的性能。在内存受限的场景下，其内存带宽可达到3000 GB/s；而在计算受限的场景下，算力则可达580 TFLOPS。这些性能数据充分展示了FlashMLA在处理复杂计算任务时的强大能力。

FlashMLA的技术原理主要包括分块调度与并行计算，以及优化的内存访问模式。通过分块调度机制，FlashMLA能够将计算任务分解为多个小块进行并行处理，从而充分利用GPU的并行计算能力。同时，通过优化内存访问模式，FlashMLA减少了内存访问的开销，进一步提升了处理大规模数据时的性能。

对于开发者而言，FlashMLA提供了简洁的安装和部署流程。通过执行简单的安装命令（如python setup.py install），开发者即可快速部署FlashMLA。此外，开发者还可以通过运行基准测试脚本（如python tests/test_flash_mla.py）来验证其性能表现。

DeepSeek开源周第二天：发布MoE模型通信库DeepEP | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

DeepSeek开源周第三天：开源矩阵乘法库DeepGEMM | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

DeepSeek开源周第四天：宣布优化的并行策略 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

DeepSeek开源周第五天：3FS并行文件系统亮相 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

文章来源：https://www.atyun.com/65630.html

标签：

DeepSeek FlashMLA

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI计划迅速多元化计算需求，减少对微软的依赖

下一篇 DeepSeek-R1在Hugging Face平台突破万赞，成为最受欢迎大模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市