分布式入门，怎样用PyTorch实现多GPU分布式训练

发布时间：2019-05-07 04:11:34 所属栏目：建站来源：机器之心编译

导读：副标题#e# 具体来讲，本文首先介绍了分布式计算的基本概念，以及分布式计算如何用于深度学习。然后，列举了配置处理分布式应用的环境的标准需求(硬件和软件)。最后，为了提供亲身实践的经验，本文从理论角度和实现的角度演示了一个用于训练深度学习模型的分

在 world of 3 环境中启动时，结果如下：

cluster@miriad2a:~/nfs$ mpiexec -n 3 -ppn 1 -hosts miriad2a,miriad2b,miriad2c python ptdist.py 
Rank 1 has tensor([0.]) 
Rank 0 has tensor([0.]) 
Rank 2 has tensor([0.])

if rank == … elif 是我们在分布式计算中多次遇到的模式。在这个例子中，它被用来在不同的 rank 上创建张量。
它们一起执行了 all-reduce(可以看见，dist.all_reduce(..) 在 if … elif block 逻辑块的外部)，求和 (dist.reduce_op.SUM) 作为 reduction 运算。
将来自每个 rank 的 x 求和，再把得到的求和结果放置在每个 rank 的 x 内。

转向深度学习

（编辑：宿州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

4/8

首页

尾页