在DeepSeek开源周的第五天,正式对外宣布了3FS(Fire-Flyer File System)的开源。3FS是一款专为现代SSD和RDMA网络设计的并行文件系统,旨在提升数据访问性能。
3FS在性能方面表现出色。在180节点的集群环境中,它实现了高达6.6 TiB/s的聚合读取吞吐量。同时,在25节点集群的GraySort基准测试中,3FS也达到了3.66 TiB/min的吞吐量。此外,每个客户端节点的KVCache查找峰值吞吐量超过了40 GiB/s。
该文件系统采用了去中心化架构,并具备强一致性语义,这使得它在处理数据密集型应用时更具优势。3FS的核心优势在于其高性能、强一致性和易用性,这些特点使它成为AI训练和推理工作负载的理想选择。
3FS在DeepSeek的V3/R1版本中得到了广泛应用,涵盖了训练数据预处理、数据集加载、检查点保存/重新加载、嵌入向量搜索以及推理过程中的KVCache查找等多个环节。这表明3FS在实际应用中已经展现出了其强大的支持能力。
与此同时,DeepSeek还开源了基于3FS的数据处理框架Smallpond。Smallpond构建于DuckDB和3FS之上,是一款轻量级的数据处理框架。它具备高性能的数据处理能力,可以扩展至PB级数据集,并且操作简便,无需长期运行的服务。
总的来说,3FS的开源为数据密集型应用提供了新的解决方案,而Smallpond的推出则进一步丰富了3FS的应用生态。
相关信息:
DeepSeek启动开源周,发布了其首个开源项目——FlashMLA | ATYUN.COM 官网-人工智能教程资讯全方位服务平台
DeepSeek开源周第二天:发布MoE模型通信库DeepEP | ATYUN.COM 官网-人工智能教程资讯全方位服务平台
DeepSeek开源周第三天:开源矩阵乘法库DeepGEMM | ATYUN.COM 官网-人工智能教程资讯全方位服务平台
DeepSeek开源周第四天:宣布优化的并行策略 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台
DeepSeek开源周第五天:3FS并行文件系统亮相 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台