新闻动态

DeepSeek第五弹炸裂收官!开源全新并行文件系统,榨干SSD全部带宽

发布日期:2025-03-07 11:04    点击次数:173

DeepSeek 开源周,今日正式收官!

内容依旧惊喜且重磅,直接公开了 V3 和 R1 训练推理过程中用到的文件系统。

具体来说,包括以下两项内容:

Fire-Flyer 文件系统(简称3FS,第三个 F 代表 File),一种利用现代 SSD 和 RDMA 网络的全部带宽的并行文件系统;

Smallpond,基于 3FS 和 DuckDB 构建的轻量级数据处理框架。

划重点就是,3FS 可以把固态硬盘的带宽性能利用到极致,表现出了惊人的速度:

180 节点集群中的聚合读取吞吐量为 6.6TB/s;

25 节点集群中 GraySort 基准测试的吞吐量为 3.66TB/ 分钟;

每个客户端节点的 KVCache 查找峰值吞吐量超过 40GB/s。

V3 和 R1 中训练数据预处理、数据集加载、嵌入向量搜索和 KV Cache 查找等工作,3FS 都立下了汗马功劳。

网友们表示,3FS 和 Smallpond 为 AI 数据处理设定了新基准,将改变数据处理的游戏规则。

对于 AI 来说,这就像从自行车升级到了高铁。

将 SSD 和 RDMA 性能榨干

根据 DeepSeek 团队介绍,3FS 是一种高性能的分布式文件系统,面对的就是 AI 训练和推理工作负载的挑战。

它利用现代 SSD 和 RDMA 网络来提供共享存储层,从而简化分布式应用程序的开发。

SSD 就是固态硬盘,而 RDMA(远程直接访问,remote direct memory access)是一种直接存储器访问技术。

它可以在没有双方操作系统介入的情况下,将数据直接从一台计算机的内存传输到另一台计算机,也不需要中央处理器、CPU 缓存或上下文交换参与。

特点就是高通量、低延迟,尤其适合在大规模并行计算机集群中使用。

具体到 3FS,具有以下特点:

分布式架构:结合了数千个 SSD 的吞吐量和数百个存储节点的网络带宽,使应用程序能够以不受位置影响的方式访问存储资源。

强一致性实现带:分配查询的链式复制 ( CRAQ ) 以实现强一致性,使应用程序代码简单易懂。

文件接口:文件接口众所周知且随处可用,无需学习新的存储 API。

并且,3FS 能够适用于大模型训练推理和过程中不同类型的应用负载:

数据准备:将数据分析 pipeline 的输出重组成分层目录结构,并有效管理大量中间输出。

数据加载器:通过跨计算节点随机访问训练样本,消除了预取或混洗数据集的需要。

Checkpoints:支持大规模训练的高吞吐量并行 Checkpoints。

用于推理的 KV 缓存:为基于 DRAM 的缓存提供了一种经济高效的替代方案,可提供高吞吐量和更大的容量。

在大型 3FS 集群上的读取测试中,实现了惊人的高吞吐量。

该集群由 180 个存储节点组成,每个存储节点配备 2 × 200Gbps InfiniBand 网卡和 16 个 14TB NVMe SSD。

大约 500+ 个客户端节点用于读压测,每个客户端节点配置 1x200Gbps InfiniBand 网卡。

在训练作业的背景流量下,最终聚合读吞吐达到约 6.6TB/s。

DeepSeek 还用 GraySort 基准测试评估了基于 3FS 构建的 smallpond 框架,该基准测试可测量大规模数据集的排序性能。

测试分为两个阶段,先用键的前缀位通过 shuffle 对数据进行分区,然后进行分区内排序。两个阶段既需要从 3FS 读取,也需要向 3FS 写入数据。

测试集群包含 25 个存储节点(2 个 NUMA 域 / 节点、1 个存储服务 /NUMA、2 × 400Gbps NIC/ 节点)和 50 个计算节点(2 个 NUMA 域、192 个物理核心、2.2 TB RAM 和 1 × 200 Gbps NIC/ 节点)。

最终对 8192 个分区中 110.5TB 数据进行排序,耗时 30 分 14 秒,平均吞吐量为 3.66TB/ 分钟。

另外,KV 缓存客户端的读取吞吐量,峰值也达到了 40GB/s。

One More Thing

回顾 DeepSeek 这五天开源的内容,几乎都和 AI Infra 相关:

第一天,,DeepSeek 独创 MLA 架构的高性能版本,直接突破 H800 计算上限;

第二天,, 第一个用于 MoE 模型训练和推理的开源 EP 通信库,提供高吞吐量和低延迟的 all-to-all GPU 内核;

第三天,,一个通用矩阵乘法库,仅 300 行代码,是 V3/R1 训练推理关键秘籍;

第四天,,创新的双向流水线并行算法 DualPipe、用于 MoE 的负载均衡算法 EPLB,以及训练和推理框架的性能分析数据;

第五天,3FS 和 Smallpond,高效的分布式文件系统和以之为基础的数据处理框架。

并且主打的就是极度压缩成本,降低消耗的同时将各种硬件的性能全部发挥到极致。

而另外一边,有网友已经在期待 V4 和 R2 的上线了。

至此,DeepSeek 开源周的连载也要告一段落了,但 DeepSeek 后续动作依然值得持续关注。

感兴趣的话,欢迎扫码备注「DeepSeek- 职业 / 姓名」加入群聊,一起关注 DeepSeek 更多动态!

项目地址:

https://github.com/deepseek-ai/3FS

参考链接:

https://x.com/deepseek_ai/status/1895279409185390655



上一篇:2025年1月26日甘肃邦农农产品批发市场价格行情
下一篇:第15届北影节发布“北京展映”首批片单, 罗伯特·奥特曼、塔可夫斯基等大师作品在列