如题所示,多卡训练模型时速度跟单卡差不多甚至还不如单卡速度,却占用了更多的资源。我的多卡训练方式和这里一样。
来张代码和nvidia-smi截图
训练的什么模型,可能是数据处理速度慢了,如果是官方的代码一般有一个-j 或者 -num-workers的参数,把这个根据cpu的数量加起来(对gluon有效)。
在训ASR模型,数据读取时要对音频进行特征提取,是这部分花的时间太长吗
一般加大–num-workers可以提升
您好,问题解决了吗?最近也遇到多卡与单卡训练速度并无差别问题。
来张代码和nvidia-smi截图
训练的什么模型,可能是数据处理速度慢了,如果是官方的代码一般有一个-j 或者 -num-workers的参数,把这个根据cpu的数量加起来(对gluon有效)。
在训ASR模型,数据读取时要对音频进行特征提取,是这部分花的时间太长吗
一般加大–num-workers可以提升
您好,问题解决了吗?最近也遇到多卡与单卡训练速度并无差别问题。