[当前最佳0.00000 @ypw/ 0.20631 @LeeJuly30] Kaggle ImageNet Dogs


#464

在@ypw的方式中,使用了下面的方式来读取图片:
for i, (fname, breed) in df.iterrows():
img = cv2.imread(‘train/%s.jpg’ % fname)
img =mx.image.imread(‘train/%s.jpg’ % fname)

但是执行上面的for loop时会报错:terminate called after throwing an instance of 'std::bad_alloc’
what(): std::bad_alloc
这个是不是内存不够的原因?这个需要多大内存呢?
感觉图片一共才几百兆,为什么会需要这么大的内存呢?
Thhank you!


#465

图片是几百兆没错,但是它们是 jpg 的,你算一下矩阵的内存占用量就知道为什么要这么大的内存了。


#466

用了stanford的数据集,结果好了个数量级。


看楼上的说法,stanford的数据集,是包括了kaggle的test数据集。那么如果训练stanford的数据集,得到一个过拟合的模型,然后预测这个从stanford数据集里抽出来的test数据集,得到的分数会很小。我看很多小伙伴得到了0.0000的分数,是不是可以认为训练出来的模型可能是不对的,因为这很可能是个过拟合的模型呢?就像线性回归里,如果一万个点的train loss非常小,接近于0, 从这一万个点里抽出的test数据集,得到的test loss也会非常小,但是这个训练模型很可能是个过拟合的模型。


#467

不能说不对 只能说模型的泛化性能不能保证。
我做过测试 在使用stanford set训练的时候我划出了10%的样本作为验证集,在验证集上的准确率只有93~94%,但是提交的结果loss能到0.003这个量级 也是就准确率99.8%左右。


#468

模型是对的,只是分数是无法参考的,是过拟合的分数。


#469

恭喜!这个是没用斯坦福数据集对吧

恭喜本周获奖小伙伴 @Trouble404 @lv @yuxiaojian01 ! 请你们把姓名+邮箱地址私信给AWS中国的 @wang_chen 领取$50 AWS credit奖励。

P.S. 春节期间可能AWS中国团队的回复会稍慢点哈


#470

对,是这样的。


#471

请问,数据集在云服务器上,为什么运行解压数据集的代码,解压速度特别慢?
运行如下代码,整理数据集时,已经好几个小时了,依然没有运行完成,请问这是什么原因呢?
image


#472

@LeeJuly30 請問Lee Hang大哥, 增大圖片的尺寸有沒有什麼準則?感覺是不斷的 trial and error


#474

第一次提交,epoch=50,
想一想怎么提升一下


#475
  • 用 stanford dogs dataset
  • 用 pretrained ConvNets的 feature

#476

@yjfdl123 我亦不知道怎麼做下去


#477

你是不是使用了数据增强(随机镜像一类的)?
如果用了建议关掉因为test set就是stanford dataset的一部分 我看你这个分数挺像我最开始用数据增强的分数 :joy:


#478

@LeeJuly30 謝謝大哥您的回覆, 我沒有用數據增強,

我沒有留意 test set是stanford dataset的一部分, 現在想一想, 用了反而會增加 over-fitting, 很有道理

請問大哥是不是只用了inception和resnet?


#479

是的 :smile:


#480


不用图像增广确实提高很多,0.00359


#481


结束前再挣扎一下,未使用stanford dataset


#482


用了stanford dataset 之后也只有这么高,,,水平太菜,继续调参去。


#483


對, 繼續調參


#484

比赛结束!

恭喜本周获奖小伙伴 @yjfdl123 @pukkinming @freecss ! 请你们把姓名+邮箱地址私信给AWS中国的 @wang_chen 领取$50 AWS credit奖励。

等Kaggle官方确认好最终成绩我们再奖励排名靠前的小伙伴。