AdaGrad算法 讨论区

http://zh.diveintodeeplearning.org/chapter_optimization/adagrad.html

因为St⼀直在累加按元素平⽅的梯度,所以St很容易大于1,所以分母一直大于1,所以AdaGrad 自变量中每个元素的学习率在迭代过程中一直在降低(或不变)。顺便问一下,如何在回复中编辑公式

我理解为 St不一定大于1 由于St是累加的 如果从0初始化也只会越来越大 只要St越来越大 eta/sqr(St + eps) 就会逐步降低

1赞

Adagrad的确使得梯度下降法更快收敛,但是我观察到例子中使用的0.4的学习率在20次,甚至50次迭代之后依然没有迭代到0,0。这说明了累计梯度使得后面的学习非常困难,尤其是在平原地区,初始过小的学习率容易使模型陷入平原。

1赞

所以用这个AdaGrad算法的时候尽可能增大学习率对吧 :smile: