admin管理员组文章数量:1444455
DeepSeek开源周项目汇总,世界上从来没有什么腾空出世!
DeepSeek开源周,6天,7个项目
最近一个月,给了自己一个深入了解DeepSeek的机会,汇总记录如下:用通俗易懂的话,讲述DeepSeek开源的那些项目。
2月24日:FlashMLA
一个高性能显卡定制的“AI加速工具”,加速到什么程度?
1. 处理速度达到3000GB/s;
2. 算力达到580万亿次/s;
《FlashMLA:GPU高速解码器》
2月25日:DeepEP
为混合专家MOE与并行专家EP量身定制的通讯库,能达到什么效果?
1. 降低延时;
2. 提升吞吐量;
训练/计算更快,成本更低,模型迭代更快。
《DeepEP:MOE与EP通讯库》
2月26日:DeepGEMM
一个FP8通用矩阵乘法库(library),300行优美的代码,效率提高N倍。
《DeepGEMM:FP8通用矩阵乘法库》
2月27日:DualPipe
一个双向管道并行算法,提高了前向传播/反向传播过程中的计算+通信效率,降低了单向流水线的等待时间,作者之中:
梁文峰赫然在列!
《DualPipe:双向管道并行算法》
2月27日:EPLB
一个动态负载均衡算法,在使用专家并行EP时,不同专家会被分配到不同的GPU,EPLB保证了GPU负载的均衡。
分级,冗余,就近,动态... 工程架构领域,哪有什么新鲜事,可偏偏在deepseek手里大放异彩。
《EPLB:EP动态负载均衡算法》
2月28日:3FS
一个用C++写的高性能分布式文件系统,幻方官网,最显著的位置,说明了3FS是他们最大的三大核心竞争力之一。
它流弊到什么程度?
读:8T/s
写:500G/s
IO响应:18亿次/s
集群使用率:96%
GPU使用率:85%
《3FS:高性能分布式文件系统》
2月29日:V3/R1整体架构思路
V3/R1软件优化架构优化:
《V3/R1架构设计思路》
为什么DeepSeek要走这一条路?
GPU是瓶颈的时候,有两条路可走:
其一,水平扩展scale out:囤卡,堆GPU;
其二,垂直扩展scale up:GPU升级换代;
但这两条路,都被死死的卡在漂亮国的手里。
卡,限制你,不让你囤。
先进的卡,不卖给你,谁叫你你落后5年。
为了突破瓶颈,DeepSeek被逼无奈的走出了第三条路:通过软件优化架构优化。
补充阅读材料:
/
所有项目细节,git可查。
==全文完==
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-21,如有侵权请联系 cloudcommunity@tencent 删除架构优化DeepSeek开源高性能本文标签: DeepSeek开源周项目汇总,世界上从来没有什么腾空出世!
版权声明:本文标题:DeepSeek开源周项目汇总,世界上从来没有什么腾空出世! 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1748177888a2821523.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论