深度卷积神经网络(AlexNet) 讨论区


#63

AlexNet不知道大家有没有遇到这个现象:batch_size 设置得越小,每个epoch花费的时间越长。我用GTX1060跑:
batch_size = 2, time = 778s
batch_size = 10, time = 223s
batch_size = 100, time = 67s
请问一下是为什么?


#64

一个epoch会跑完数据集里的所有sample,batch size大的时候一次能多跑更多的sample,折算下来平均每个sample使用的时间更少


#65

有几种模式,round, ceil, floor, 应该默认是round


#66

在Jetson TX2上尝试用GPU跑AlexNet,结果出现下面的错误(平台信息:Jetpack 3.1 CUDA 8.0 mxnet 1.2.0):


请问是什么原因导致的?@szha


#67

看了@xiaoming的帖子,知道是内存爆掉了,把transform放在每个batch而不是整个数据集可以解决这个问题。


#68

@astonzhang


#69

谢谢PR,已merge。

大家如果发现还有memory的问题我们再仔细看一下


#70

请问为什么需要将图片的大小调整,如果不调整直接用会报错,mxnet不是会自动根据输入大小去调整吗?如果是这样不调整大小不会报错啊,应该是训练结果没那么好而已啊


#71

我用windows gpu执行,弹出提示python停止执行,2g显卡跑不动这个程序吗


#72

用Xavier初始化训练精度有所上升,但是有点过拟合了
Epoch 0. Loss: 0.621, Train acc 0.77, Test acc 0.87, Time 387.6 sec
Epoch 1. Loss: 0.355, Train acc 0.87, Test acc 0.89, Time 381.1 sec
Epoch 2. Loss: 0.300, Train acc 0.89, Test acc 0.90, Time 380.9 sec
Epoch 3. Loss: 0.265, Train acc 0.90, Test acc 0.91, Time 381.4 sec
Epoch 4. Loss: 0.239, Train acc 0.91, Test acc 0.91, Time 381.4 sec
Epoch 5. Loss: 0.216, Train acc 0.92, Test acc 0.92, Time 382.1 sec
Epoch 6. Loss: 0.198, Train acc 0.93, Test acc 0.93, Time 384.0 sec
Epoch 7. Loss: 0.183, Train acc 0.93, Test acc 0.93, Time 384.7 sec
Epoch 8. Loss: 0.167, Train acc 0.94, Test acc 0.93, Time 384.6 sec
Epoch 9. Loss: 0.152, Train acc 0.94, Test acc 0.93, Time 384.1 sec
Epoch 10. Loss: 0.139, Train acc 0.95, Test acc 0.93, Time 384.8 sec
Epoch 11. Loss: 0.125, Train acc 0.95, Test acc 0.93, Time 384.6 sec
Epoch 12. Loss: 0.113, Train acc 0.96, Test acc 0.93, Time 384.4 sec
Epoch 13. Loss: 0.102, Train acc 0.96, Test acc 0.93, Time 383.7 sec
Epoch 14. Loss: 0.091, Train acc 0.97, Test acc 0.93, Time 384.6 sec
Epoch 15. Loss: 0.081, Train acc 0.97, Test acc 0.92, Time 383.9 sec
Epoch 16. Loss: 0.073, Train acc 0.97, Test acc 0.93, Time 382.9 sec
Epoch 17. Loss: 0.063, Train acc 0.98, Test acc 0.93, Time 382.7 sec
Epoch 18. Loss: 0.058, Train acc 0.98, Test acc 0.93, Time 383.7 sec
Epoch 19. Loss: 0.055, Train acc 0.98, Test acc 0.93, Time 382.7 sec

但是下面用默认初始化函数训练,直接无解,为什么呢?gpu跑一次很久,调参数不容易啊
Epoch 0. Loss: 1714237500.674, Train acc 0.10, Test acc 0.10, Time 379.5 sec
Epoch 1. Loss: 2.303, Train acc 0.10, Test acc 0.10, Time 374.7 sec
Epoch 2. Loss: 2.303, Train acc 0.10, Test acc 0.10, Time 374.7 sec
Epoch 3. Loss: 2.303, Train acc 0.10, Test acc 0.10, Time 376.4 sec


#73

确实有点过。

什么GPU,是感觉有点慢


#74

如何查看每一层网络的大小呢?


但是无法print每层网络的shape。我想搞清楚每层网络的大小,应该怎么做呢?


#75


这边运行AlexNet时出现这样的情况,请问是数据量太大了跑不动么?还是电脑配置有问题??


#76

之前沐神视频里好像说过可以在定义网络那边加print语句:joy:


#77
ctx = utils.try_gpu()
net.initialize(ctx=ctx, init=init.Xavier())

loss = gluon.loss.SoftmaxCrossEntropyLoss()
trainer = gluon.Trainer(net.collect_params(),
                        'sgd', {'learning_rate': 0.01})
utils.train(train_data, test_data, net, loss,
            trainer, ctx, num_epochs=5)

Start training on gpu(0)
Epoch 0. Loss: 2.303, Train acc 0.10, Test acc 0.11, Time 112.9 sec
Epoch 1. Loss: 2.303, Train acc 0.10, Test acc 0.11, Time 111.3 sec
Epoch 2. Loss: 2.303, Train acc 0.10, Test acc 0.11, Time 111.4 sec
Epoch 3. Loss: 2.303, Train acc 0.10, Test acc 0.11, Time 111.5 sec
Epoch 4. Loss: 2.303, Train acc 0.10, Test acc 0.11, Time 111.3 sec

默认的程序跑出来得结果如上,和achou45的跑的默认情况是一样的,差不多都是0.1的精度,为什么呢?同时lr也试过了0.05 0.1 0.2,结果也是如此。


#78

同样遇到这个问题。。


#79

i7 cpu 跑这个 跑了十分钟跑不出来,是正常现象么???batch_size和resize值都改小了,还是跑不出来。


#80

cpu可能会慢很多


#81

你试过更新utils文件了吗


#82

更新过了