求问multi-scale testing是怎么做的?

请问一下大家,multi-scale testing是怎么做的?在refinedet或者其他的论文中看到这个trick,但一直没明白是怎么做的,网络的输入的size不是确定的吗,是把输入图像做成图像金字塔,然后resize到输入尺寸,比如512*512这样,在输入进去吗?

网络中没有全连接的话测试时输入图片大小还是可以变的。训练时固定输入大小大概是为了方便和Ground Truth的尺寸匹配(比如姿态估计的heatmap),尺寸都一样的话也方便并行计算。