头梯度和链式求导法则求问大神啊~

上面说输入的头梯度是dz/dy,用笔计算出来应该是2x,但是x的梯度是怎么计算出来的呢?
好混乱啊~!!!

这里的求导其实就是求梯度,梯度下降就是将原来给定的值不断的减去学习率乘以导数,重复这个过程就是梯度下降。
求导数就是求梯度

头梯度是相当于有一个 df(z)/dz

能问一下,什么是头梯度吗?这个名词的英文是啥