多尺度目标检测 讨论区

http://zh.diveintodeeplearning.org/chapter_computer-vision/multiscale-object-detection.html

程序部分有一点小疑惑,希望得到解答.
MultiBoxPrior函数,我查看了mxnet上的api,没有看懂.它的第一个参数data指的是像素点集合吗?是否必须以(图像个数,图像维度,高,宽)的形式进行输入?为什么这一节教程里,fmap的初始化全为0,经过锚框会生成均匀分布的像素点?fmap全为0,生成的所有锚框的中心点不都应该是(0,0)吗?谢谢!

同不理解!

这个函数使用的信息是data的shape,不是其本身。它会针对data代表的特征图的每个像素按照指定的sizes, ratios生成锚框。
因为特征图本身是经过了卷积降维的,针对特征图每个像素生成锚框的个数也会小于针对原始图像每个像素生成的锚框个数,且生成的锚框投射到原图像时,是均匀分布的。


红框里这段代码有错,参数顺序应该是高、宽,而不是反过来。