莫名其妙的MXNET错误


#1

本来能够正常跑的faster rcnn突然之间就不能运行了,报错信息如下:

mxnet.base.MXNetError: [16:14:06] src/operator/nn/./cudnn/cudnn_softmax_activation-inl.h:154: Check failed: e == CUDNN_STATUS_SUCCESS (3 vs. 0) cuDNN: CUDNN_STATUS_BAD_PARAM

mxnet的版本为mxnet-cu90 1.2.0b20180313

找不到解决办法,重新卸载之后安装了1.1.0问题解决。。。
所以一脸懵逼的问一下这到底时咋回事呢?
@szha @mli


#2

没更新mxnet/CUDA/CUDNN? 什么都没动就出问题了?
那只能定位到code变了?


#3

mxnet肯定时没有动,code也没有变,目前只能是怀疑CUDA/CUDNN升级导致的问题(但具体有没有人升级我也不知道,因为不止我自己在用。)


#4

我更新1.2后也有这个问题
我关闭了一些程序减少了内存和显存占用后,重新跑能跑了。开检测工具没发现内存,cpu,gpu爆了的记录
不知道是偶然的还是怎么


#5

另外一点比较奇怪的状况时,有时候shell脚本会报错,但是什么都不做,重新运行一下又可以了,也是非常费解。


#6

CUDNN报错有时候跟爆显存有关,但是又不一定告诉你out of memory,所以遇到问题尝试换下参数再跑跑


#7

同样遇到了类似的问题,我报的错是
mxnet.base.MXNetError src/operator/nn/./cudnn/cudnn_convolution-inl.h:266: check failed: e == CUDNN_STATUS_SUCCESS (8 vs. 0) cuDNN: CUDNN_STATUS_EXECUTION_FAILED
版本是mxnet-cu90 1.4


#8

运行bilstm时碰到同样问题,不是OUT OF MEMORY. 卸载1.5.0重装1.2.0暂时解决问题。