多卡训练速度没有提升

如题所示,多卡训练模型时速度跟单卡差不多甚至还不如单卡速度,却占用了更多的资源。我的多卡训练方式和这里一样。

来张代码和nvidia-smi截图

训练的什么模型,可能是数据处理速度慢了,如果是官方的代码一般有一个-j 或者 -num-workers的参数,把这个根据cpu的数量加起来(对gluon有效)。

在训ASR模型,数据读取时要对音频进行特征提取,是这部分花的时间太长吗

一般加大–num-workers可以提升

您好,问题解决了吗?最近也遇到多卡与单卡训练速度并无差别问题。