admin管理员组文章数量:1439243
【教程】PyTorch多机多卡分布式训练的参数说明
转载请注明出处:小锋学长生活大爆炸[xfxuezhagn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~
目录
torchrun
一、什么是 torchrun
二、torchrun 的核心参数讲解
三、torchrun 会自动设置的环境变量
四、torchrun 启动过程举例
机器 A(node_rank=0)上运行
机器 B(node_rank=1)上运行
五、小结表格
PyTorch
一、背景回顾
二、init_process_group
三、脚本中通常的典型写法
通用启动脚本
torchrun 与 torch.multiprocessing.spawn 的对比可以看这篇: 【知识】torchrun 与 torch.multiprocessing.spawn 的对比
torchrun
一、什么是 torchrun
torchrun
是 PyTorch 官方推荐的分布式训练启动器,它的作用是:
- 启动 多进程分布式训练(支持多 GPU,多节点)
- 自动设置每个进程的环境变量
- 协调节点之间建立通信
二、torchrun
的核心参数讲解
代码语言:javascript代码运行次数:0运行复制torchrun \
--nnodes=2 \
--nproc_per_node=2 \
--node_rank=0 \
--master_addr=192.168.5.228 \
--master_port=29400 \
xxx.py
本文标签:
教程PyTorch多机多卡分布式训练的参数说明
版权声明:本文标题:【教程】PyTorch多机多卡分布式训练的参数说明 内容由网友自发贡献,该文观点仅代表作者本人,
转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1747633516a2733518.html,
本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论