网络中的网络(NiN) 讨论区


#43

两层1x1, 层数深度更深了。前面有童鞋讲因为1x1卷积增加了非线性转换和增加参数空间。和vgg对比防止过拟合。
1层训练时间短,精度增加不知道为啥?

2 层 1x1
epoch 1, loss 2.1142, train acc 0.234, test acc 0.461, time 139.4 sec
epoch 2, loss 1.1686, train acc 0.571, test acc 0.733, time 133.6 sec
epoch 3, loss 0.6989, train acc 0.739, test acc 0.758, time 134.0 sec
epoch 4, loss 0.5694, train acc 0.788, test acc 0.819, time 134.1 sec
epoch 5, loss 0.5070, train acc 0.813, test acc 0.836, time 134.0 sec

2 层 1x1
epoch 1, loss 1.9583, train acc 0.277, test acc 0.543, time 101.9 sec
epoch 2, loss 0.9007, train acc 0.673, test acc 0.775, time 95.0 sec
epoch 3, loss 0.5654, train acc 0.795, test acc 0.838, time 95.7 sec
epoch 4, loss 0.4667, train acc 0.830, test acc 0.857, time 95.4 sec
epoch 5, loss 0.5024, train acc 0.823, test acc 0.862, time 95.6 sec


#44

第一个图是两层11的结果,第二个图是一层11的结果,感觉越复杂的话训练时间越长,这点可以证实,但是准确度的话很奇怪,难到这个层数也是一个超参数吗,玄学调参?



#45

NiN使⽤了输出通道数等于标签类别数的NiN块,然后使⽤全局平均池化层对
每个通道中所有元素求平均并直接⽤于分类

这一章节中的这句话应该怎么理解?
我的理解是这个NiN块是标签类别数的维度,然后每个维度得到的是该类的概率,最后对这输出通道数个概率进行平均。
不知道理解得对不对?


#46

我用的cpu跑的NIN示例,,一直跑不出结果,是什么i情况??内存不够用?


#47

Me too. 减少后速度慢了不少,效果好了不少。