AdaDelta算法 讨论区

http://zh.diveintodeeplearning.org/chapter_optimization/adadelta.html

似乎改成1e-6之后收敛变慢了, 请问是为什么呢

我认为这说明了此时的梯度值大于delta的值造成迭代更新变慢。

使用AdaDelta对函数f(x) = 0.1(x1)^2 + 2(x2)^2进行轨迹跟踪,发现rho=0.9时,更新速度非常慢。是不是说明该算法只能用在快收敛时使用?

可以试一下调高eps=1e-2,rho=0.99,结果还不错
捕获