admin管理员组

文章数量:1444455

DeepSeek开源周项目汇总,世界上从来没有什么腾空出世!

DeepSeek开源周,6天,7个项目

最近一个月,给了自己一个深入了解DeepSeek的机会,汇总记录如下:用通俗易懂的话,讲述DeepSeek开源的那些项目。

2月24日:FlashMLA

一个高性能显卡定制的“AI加速工具”,加速到什么程度?

1. 处理速度达到3000GB/s;

2. 算力达到580万亿次/s;

FlashMLA:GPU高速解码器

2月25日:DeepEP

混合专家MOE并行专家EP量身定制的通讯库,能达到什么效果?

1. 降低延时;

2. 提升吞吐量;

训练/计算更快,成本更低,模型迭代更快。

DeepEP:MOE与EP通讯库

2月26日:DeepGEMM

一个FP8通用矩阵乘法库(library),300行优美的代码,效率提高N倍。

DeepGEMM:FP8通用矩阵乘法库

2月27日:DualPipe

一个双向管道并行算法,提高了前向传播/反向传播过程中的计算+通信效率,降低了单向流水线的等待时间,作者之中:

梁文峰赫然在列!

DualPipe:双向管道并行算法

2月27日:EPLB

一个动态负载均衡算法,在使用专家并行EP时,不同专家会被分配到不同的GPU,EPLB保证了GPU负载的均衡。

分级,冗余,就近,动态... 工程架构领域,哪有什么新鲜事,可偏偏在deepseek手里大放异彩。

EPLB:EP动态负载均衡算法

2月28日:3FS

一个用C++写的高性能分布式文件系统幻方官网,最显著的位置,说明了3FS是他们最大的三大核心竞争力之一。

它流弊到什么程度?

读:8T/s

写:500G/s

IO响应:18亿次/s

集群使用率:96%

GPU使用率:85%

3FS:高性能分布式文件系统

2月29日:V3/R1整体架构思路

V3/R1软件优化架构优化

V3/R1架构设计思路

为什么DeepSeek要走这一条路?

GPU是瓶颈的时候,有两条路可走:

其一,水平扩展scale out:囤卡,堆GPU;

其二,垂直扩展scale up:GPU升级换代;

但这两条路,都被死死的卡在漂亮国的手里。

卡,限制你,不让你囤。

先进的卡,不卖给你,谁叫你你落后5年。

为了突破瓶颈,DeepSeek被逼无奈的走出了第三条路:通过软件优化架构优化

补充阅读材料:

/

所有项目细节,git可查。

==全文完==

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-21,如有侵权请联系 cloudcommunity@tencent 删除架构优化DeepSeek开源高性能

本文标签: DeepSeek开源周项目汇总,世界上从来没有什么腾空出世!