AdaGrad算法 讨论区

http://zh.diveintodeeplearning.org/chapter_optimization/adagrad.html

因为St⼀直在累加按元素平⽅的梯度,所以St很容易大于1,所以分母一直大于1,所以AdaGrad 自变量中每个元素的学习率在迭代过程中一直在降低(或不变)。顺便问一下,如何在回复中编辑公式

我理解为 St不一定大于1 由于St是累加的 如果从0初始化也只会越来越大 只要St越来越大 eta/sqr(St + eps) 就会逐步降低