[最高0.9853! @zzc1995,分数持续更新中] 动手玩Kaggle比赛------使用Gluon对原始图像文件分类(CIFAR-10) 讨论区


#415

250 轮后的结果,关键没有特别多的GPU设备,都是在缝隙中挤点资源时间跑的,好辛苦啊。
求给AWS点卡,这样可以减少压力。
CIFAR10-result-20171103-01


#416

resnet162 加了个伪标签结果,提升了大概千分之二左右,然后把两个模型融合得到了最终结果,不过貌似还是不太好的样子。。。。


#417

ensemble的比例改变还是有点点提升


#418

哦哦,感谢提醒,能不能说一下具体怎么mixup


#419

就是把n个模型的softmax输出加一下然后再用argmax求预测值


#420

这个mixup和ensemble,哪个更make sense一点,我觉得人的思维可能更像是ensemble,但是对于模型而言,我觉得mixup更make sense一点


#421

感谢沐帅


#422

这里报告了97+https://arxiv.org/pdf/1710.09412.pdf


#423

哦,好的,感谢感谢


#424

@daweiOSU2017 @becauseof86 @xingkong_liang @huluwa @WenmuZhou @PeterChenYijie @stephen412

李沐老师本周直播里说了这几周参与都有奖励~ 希望核弹票对你们参与以后的Kaggle比赛有帮助


#425

, mixup果然有效果, resnet164和densenet, 各三个参数,一共六个


#426

個別訓練Densenet and Resnet 到 0.9542, 0.9544
然後取max 以及 average
根據Kaggle score 平均比較好一點到 0.9629

謝謝Sherlock sharing.


[当前最佳0.00000 @ypw/ 0.20631 @LeeJuly30] Kaggle ImageNet Dogs
#427


还是官网的网络,首先使用下面的训练得到最好的模型,三个数据扩充火力全开

num_epochs = 800
learning_rate = 0.1
weight_decay = 5e-4
lr_period = 80
lr_decay = 0.6

if epoch == 20 or epoch == 40:
    trainer.set_learning_rate(trainer.learning_rate * lr_decay)
elif epoch > 40 and (epoch-40) % lr_period == 0:
    trainer.set_learning_rate(trainer.learning_rate * lr_decay)

然后将最好的模型拿来初始化网络(713个eopch时能在验证集上达到94.74%,此时提交模型只有93.12%),继续使用下面的策略继续训练,其余不变

learning_rate = 0.001
weight_decay = 5e-4
lr_period = 80
lr_decay = 0.

188个epoch时能在验证集上达到94.64%,这个时候直接使用得到的模型测试并提交就有93.75%了,感觉这应该是官网模型(ResNet-18)的最好结果了


#428

想知道这800个epoch训练了多久 :see_no_evil:


#429

14.444个小时😂


#431

请问densenet训练速度大概是怎么样?


#432

请问dense net的训练一个epoch大概多久?


#433

resnet164 + resnext + wide resnet + densenet

mxnet-cifar10


[当前最佳0.00000 @ypw/ 0.20631 @LeeJuly30] Kaggle ImageNet Dogs
#434

2分多到3分钟吧,好像,有点忘了


#435

我自己试了下重现论文中的Densenet结构(L=250; k =24) and (L=190; k =40),直接爆掉了显存24G的Tesla P40。
看到大家都用了@Sherlock的Densenet(L=100;k=12),发现这个是可行的,占用显存不到5G。
简单计算了一下(L=250; k =24)需要显存接近90G,(L=190; k =40)需要显存接近150G,Tesla P40连一个Dense Block都装不下。。。:cry: