编程频道|软件玩家 - 软件改变生活!
  •  首页
  •  编程
  •  IT技术
  •  数码大全
  •  登录
  1. 标签
  2. 梯度
  • 从0到大模型:探索Megatron-LM在千卡级集群上的高效预训练

    4.1 Megatron-LM:千卡级集群预训练的“硬核”框架 Megatron-LM 是一个基于 PyTorch 的分布式训练框架,专门面向 Transformer 大语言模型(尤其是 GPTLLa
    问题梯度空泡
    admin1月前
    280
  • 深度解读:Megatron-LM在千卡级集群中的超高效能

    4.1 Megatron-LM:千卡级集群预训练的“硬核”框架 Megatron-LM 是一个基于 PyTorch 的分布式训练框架,专门面向 Transformer 大语言模型(尤其是 GPTLLa
    问题梯度空泡
    admin1月前
    260
  • 03 梯度(Gradient)很小怎么办(Local Minima与Saddle Point)-学习笔记-李宏毅深度学习2021年度

    上篇:02 机器学习任务攻略-学习笔记-李宏毅深度学习2021年度 下篇:04 自动调整学习率(Learning Rate)-学习笔记-李宏毅深度学习
    梯度学习笔记深度年度local
    admin2025-1-27
    810
CopyRight © 2022 All Rights Reserved 豫ICP备2021025688号-21
Processed: 0.033, SQL: 9