单发多框检测(SSD) 讨论区


#144

box_preds(网络的预测边界框输出)和box_target(MultiBoxTarget的输出第一项)的含义是什么,怎么计算出来的?怎么感觉都是预测框与真实框的偏移量,求大神指点一下 @zhreshold


#145

box_preds是网络里输出的结果(预测值),box_target是通过真实标记和预测框的偏移量。 训练的目标就是让网络的预测值等于box_target


#146

谢谢大神。那相当于,在预测时网络的输出也是偏移量,需要使用MultiBoxDetection给它转成归一化的坐标,然后再乘以h或者w,就得到原图的框的坐标。这样理解对吗


#147

不是简单的乘h,w,不过意思是对的


#148

你这个问题解决了吗?我也这一块
Encounter sample with no valid label.


#149

想问一下关于SSD中,正负样本比例(negative_mining_ratio的设置)在其中起了什么作用?先说一下自己的理解,在MultiBoxTarget中,cls_target的初始值为-1,然后标记为负样本的为0,其他类别从1开始,然后用交叉熵计算损失函数,负样本的个数只是影响了cls_target中0的个数,怎么会影响最终预测框的得分的高低呢??(已经测试过,对于不同的正负样本的比例,同一个阈值,最终检测出框的个数是不一样的)先谢过各位大佬了


#150

影响了cls_target中0的个数,也就影响了损失函数,影响了梯度。。。。。


#151

size[i]和ratio[0] 如果i<= n-1
size[0]和ratio[i-n+1] 如果i> n-1
例如 i=0 1 2 时 i<=n=3 size[0] ratio[0] size[1] ratio[0] size[2] ratio[0]
i=3 4 时 i>n-1=2 size[0] ratio[3-3+1]为size[0]ratio[1] size[0]ratio[4-3+1]为size[0]ratio[2]
求正解!


#152

anchor是对于每一个feature map cell对应原图的标准坐标(xmin, ymin, xmax, ymax),但是不能作为很好的输出,需要加一个变换,这个变换就在 box predictions里,把它reshap成(1,5444,4)更好理解,4代表(delta_x, delta_y, delta_w, delta_h)。 最终预测出来的类别置信度取自class predictions, 边框取自anchors和box predictions的结合。


#153


#154

b是从0开始算的。假设要判断猫、狗。我们可以认为猫是第0类物体,狗是第1类物体。第几类物体是不包含背景的。


#155

在教程“减半模块”中有这样一句话:
一个尺度上的 3×3窗口覆盖了上一个尺度上的 10×10窗口。
这句话该怎么理解。
就算有两层3x3卷积,怎么会计算为10呢


#156

可以说详细说下你的见解吗,3Q


#157

想问下,类别预测层是用N个卷积核在整张特征图上进行卷积,那么卷积出来的不是N张特征图吗,为什么SSD中卷积出来的结果是特征图上生成的所有边界框的类别,卷积是对整张图进行的,并没有对生成的边界框里的图分别进行卷积啊,还有就是边界框预测层为什么也是用的这种方法,卷积的时候他们都没有和具体的边界框有联系啊(小白一枚,还望各位大佬不吝赐教,不胜感激!)


#158

样本是预设的大量anchor。当一部分anchor与输入图像中的groundtruth box的IoU大于一定值(比如0.5),这个anchor就被划分为正样本,其余的不满足这个条件的anchor就是负样本。事实上负样本数远远大于正样本数,造成了样本类别不平衡的问题,SSD处理这个问题的方法就是只选取一部分负样本与正样本一起算Loss。如果正样本数为n, 那么网络会选取n*negative_mining_ratio个负样本。


#159

我的理解是,尽管卷积的时候和具体的边界框产生联系,但是你卷积的输出(分类预测和边界框回归)算Loss的时候是包括了此边界框的信息的,因为每一个边界框都在输入图像时与groundtruth bbox进行了匹配,有了类别信息和位置信息


#160

首先,表示一下感谢,其次最近把SSD的类别预测层的输出进行了可视化,发现就是卷积结果出来的特征图,conv_result 而原文说的是所有框的对应类别置信度(对应的应该只是一些概率数据)


#161

Hi , 請問一下這是把不同scale拉出來的置信度嗎?
這個例子中是分2類(背景、物體),怎麼會有16張特徵圖


#163

说错了,这个是4*4(4个框4个对应的偏移坐标),但是我的疑惑也是为什么输出不是坐标偏移


#164

应该是借鉴VGG里面的3✖️3卷积核的原理,VGG里用3✖️3卷积核的原因在原论文是这样解释的:它是同时考虑上下、左右、中心的最小的卷积核。