关于学习率的选择问题是否能大于1

对于第7讲中Adagrad举的例子学习率设置为2. 但是我在网上搜索时看到学习率理论范围是10e-6到1。所以很困惑。想和大家一起讨论下

lr设的太大目标函数很大可能会发散…还是lr小一点保险,大不了为了精度多训点epoch… :smile:

lr属于超参数,随便多少都可以,只要能很好的顺利进行传递与参数最优化就行,一般定位一个范围,在这个范围里面测试精度,选择精度高的对应的学习率
实践当中一般在0.001~0.01之间,精度最好