Bert预训练里accumulate参数的作用是什么?


如图,我在测试这个脚本的时候看到一个accumulate参数,源码我看了一下,里面涉及到了参数更新还有学习率的更新策略,这个参数的作用是什么呢?什么样的情况下会用到这个参数?

有人知道吗?@szha 对这个有了解嘛,可以解答一下嘛?

这个是做gradient accumulation, 可以用forward/backward 好几次模拟大batch训练的效果 如果gpu memory比较少的时候很方便