多层感知机 讨论区

http://zh.diveintodeeplearning.org/chapter_deep-learning-basics/mlp.html

本节中的练习中说的打破对称性:应该就是指让权重不要初始化为0,而是随机化,以免所有的feature map,输出以及梯度都一样。
参考:https://dataquestion.com/question/8646-2

2赞

参考这个博客《 sigmoid和tanh求导的最终结果,以及Sigmoid函数与损失函数求导》
https://blog.csdn.net/hhtnan/article/details/78316785

3赞

对应用链式法则,推导出 sigmoid 函数的导数的数学表达式 的过程还是有许多不理解的地方,有没有同学帮忙对推导过程做个解释,谢谢!

上图的前两步是求导,后面的就是列项凑项了,LaTeX不熟练,手写字略丑见谅:rofl:

复核函数求导(链式)
设u=exp(-2x)
f(x)=1-exp(-2x)可转换为f(u)=1-u
g(x)=1/(1+exp(-2x))可转换为g(u)=1/(1+u)

因为
tanh(x)可转化为
tanh(u)=f(u)*g(u)

所以对于tanh(u)的求导为两个函数乘机的求导
tanh’(u)=f’(u)*g(u)+f(u)*g’(u)

故,你就可以求tanh对x的导数啦!别忘了最后乘上u对x求导的结果(u’=-2exp(-2x))