多 GPU 计算 讨论区

http://zh.diveintodeeplearning.org/chapter_computational-performance/multiple-gpus.html

多机器分布式的训练要怎么做呢,有参考的例子么?

这里有个手把手的例子 http://docs.aws.amazon.com/mxnet/latest/dg/mxnet-on-ec2-cluster.html ,只关心code的话可以直接看step 5

在这个例子里每个batch的loss记录下来如下图所示,为什么会有一段平台区呀?

原视频中有个问题是:“注意到我们使用GPU 0来做梯度求和,会有带来什么问题吗?”
想了半天也没想到什么问题,如是否要等待GPU 0完成任务?是否速度很慢?是否是冲了GPU 0的数据,感觉都不是问题啊?@mli