关于学习率的选择问题是否能大于1

对于第7讲中Adagrad举的例子学习率设置为2. 但是我在网上搜索时看到学习率理论范围是10e-6到1。所以很困惑。想和大家一起讨论下

lr设的太大目标函数很大可能会发散…还是lr小一点保险,大不了为了精度多训点epoch… :smile: