MXNet多机多卡训练网络


#1

想用Gluon来进行多机多卡的训练,看完Distributed training with multiple machines的说明还是有点儿不太清楚,不知道有没有一个比较完整的例子可以学习一下,或者有经验的小伙伴一起交流一下


#2

单机多卡的程序转换成多机多卡的程序只需要进行如下改动吗?

  • 将store由
    store=kv.create('local') trainer = gluon.Trainer(...,kvstore=store)变为store= kv.create('dist') trainer= gluon.Trainer(...,kvstore=store)
  • 修改dataLoader使得每一个worker 只能读数据集合中对应的一部分
  • launch.py来启动写好的的训练程序

#3

可以看看这个 https://mxnet.incubator.apache.org/how_to/multi_devices.html


#4

这个网址404了,顺便反馈一下mxnet的官网改造之后非常不好用:joy:


#5

是真的很不好用,连api文档很多都打不开,例如 gluon.data 这个包的api就根本进不去
@szha @mli


#6

还可以考虑horovod+mxnet