区域卷积神经网络(R-CNN)系列 讨论区

http://zh.diveintodeeplearning.org/chapter_computer-vision/rcnn.html

看了一下各种R-CNN用的都是Z-score标准化,这个标准化方法用在R-CNN上有什么优势吗? 均值和标准差都是在用来训练和测试的样本上统计出来的,当将训练的模型应用到未知数据的时候,仍然采用样本样本统计出来的均值和标准差进行标准化说得过去;当进行增量训练得时候或者迁移训练得时候,是重新统计均值和标准差呢,还是维持不变,不管咋搞理由都不充分,我个人倾向于重新统计。

为什么我用gluoncv的faster—rcnn教程得出的bboxes输出数值都是[-1,-1,-1,-1],但是却可以用于画图的坐标?

是不是视频中的这个图错误了?选择性搜索是对输入图片进行操作,不是对卷积层进行操作吧?书上的正确。
视频中Fast R-CNN 结构图:


课本中结构图:
image

Faster R-CNN 论文中说"having an ROI pooling layer that is differentiable w.r.t the box coordinates is a nontrivial problem",然后说"ROI Warping layer"可以解决这个问题。

我知道ROI Pooling的输入是features和RPN网络基于这个features预测的coordinates,预测的coordinates是不固定的,但是为什么就只能对features求梯度,而不能对coordinates求梯度呢?

同理是不是ROI Align也解决了这个问题,使得第一阶段和第二阶段可以同时训练(而不忽略coordinates的梯度)?