首页
编程
IT技术
数码大全
登录
标签
梯度
从0到大模型:探索Megatron-LM在千卡级集群上的高效预训练
4.1 Megatron-LM:千卡级集群预训练的“硬核”框架 Megatron-LM 是一个基于 PyTorch 的分布式训练框架,专门面向 Transformer 大语言模型(尤其是 GPTLLa
问题
梯度
空泡
admin
1月前
28
0
深度解读:Megatron-LM在千卡级集群中的超高效能
4.1 Megatron-LM:千卡级集群预训练的“硬核”框架 Megatron-LM 是一个基于 PyTorch 的分布式训练框架,专门面向 Transformer 大语言模型(尤其是 GPTLLa
问题
梯度
空泡
admin
1月前
26
0
03 梯度(Gradient)很小怎么办(Local Minima与Saddle Point)-学习笔记-李宏毅深度学习2021年度
上篇:02 机器学习任务攻略-学习笔记-李宏毅深度学习2021年度 下篇:04 自动调整学习率(Learning Rate)-学习笔记-李宏毅深度学习
梯度
学习笔记
深度
年度
local
admin
2025-1-27
81
0