http://zh.diveintodeeplearning.org/chapter_deep-learning-basics/backprop.html
能不能在教程或文档中加入capsule的实现?
反向传播中我们使用了正向传播中计算得到的中间变量来避免重复计算
确认下哈,这个中间变量应该是所有的中间变量,不仅仅是前面说的中间变量z(如下公式)是不是:
全导数了解一下
1赞
o对w2求偏导得到的是H∈R(q×1),H每一维都是h的转置,这样更准确吧?还有那个z对W1求偏导也是这个吧? 感觉这里都把每一维相同元素的矩阵都降维成一维了,对不对?
还有j对h求导的时候,最后等号后的公式左右是不是反了,w2的转置在后面才对吧这样没影响吗?(广播机制?)
公式为什么不是z = XW 而是 z = WX?
其实这个区分不用那么严谨,只要能正常计算就行,这个课程里面用的比较多的是Y = XW,但其实你写Y = WX也行的,只要保证其他的数据结构比如说b的结构和WX相匹配(能正常计算)就行,心照不宣吧可能hhh
哦原来是这样,我以为有什么不同,因为我看原理也是一样的。
所以是不是可以说是教材上写错了?这可是矩阵乘法,不是元素乘法,不应该写反的,结果不一样。
你说的对,但是emmm我不是那么介意了
后来别人告诉我说,这一章开始时设定的X和W的形状和其他章节是不同的,所以才可以这样写。那几个数学符号我不知怎么写,你可以去看看线性回归那一章节X和W的定义,和这一章节比比看,正好是反的。
不知道这一章是不是不同的人写的,风格不同啊。
嗯嗯好的,thanks
1赞
为什么 J = L + s 呢?
损失函数J等于 交叉熵误差加惩罚项
楼主提的两个问题我也有点疑惑。1.我记得吴恩达基础课有提过,就暂时先把矩阵看作向量 2.我也觉得反了,有影响,就像矩阵之间的乘法,不满足交换律
翻了翻,好像是的
因为要计算总的损失,L是预测值和真实值之间的损失,而s是权重衰减的损失,加在一起就是J,即总的损失,总的损失就是需要优化的最终函数。