L2范数正则化对应贝叶斯统计里的哪个重要概念

L2范数正则化对应贝叶斯统计里的哪个重要概念?

先验(prior)

能具体解释一下吗???

统计有两个学派,一派叫frequentist(频率论),另一派叫Bayesian(贝叶斯)。以线性回归为例,假设

y_i = w \cdot x_i + \text{noise}

其中 noise 服从正态分布,均值0,方差 \sigma^2

从贝叶斯的角度:

假设 w的prior是高斯prior: w \sim N(0, 1/ \lambda) ,注意这里的N是高斯(正态)分布。

因为MAP = ML * Prior (MAP: maximum a posteriori, ML: maximum likelihood)

所以由MAP estimation得到(n是数据点个数):

w = \text{argmax}_w \sum_i^n N(y_i | w \cdot x_i , \sigma^2) N(w | 0, 1/ \lambda)

去掉不影响估计w的常数项 ,得

w = \text{argmax}_w \sum_i^n - (y_i - w \cdot x_i)^2 / \sigma^2 - \lambda \cdot w^2 + 常数项

把负号去掉,求w也就是最小化

\sum_i^n (y_i - w \cdot x_i)^2 / \sigma^2 + \lambda \cdot w^2

你看看这里是不是跟频率论学派说的直接最小化损失函数(最大似然估计)

\sum_i^n (y_i - w \cdot x_i)^2

然后再在后面加个L2范数正则化

\lambda \cdot w^2

是一回事?

这里 \lambda 来自贝叶斯的先验,如果为0就没有先验。

8赞

有详细的解释文档吗?

没有latex,不知道上面写的是不是好读

分享一个LaTeX版本吧

因为L2正则化对应于参数是服从高斯分布的先验假设啊。
平常我们推导线性回归算法时倾向于用最小化平方损失(即最小二乘)的方法来进行参数W的估计,但是如果我们利用最大似然估计的方法(即概率的方法)来推的话,就可以很容易得到正则化的解释了。

4赞

@liuguochao @astonzhang 加入了mathjax插件,现在可以直接写latex了。我吧 @astonzhang 的原贴改了下

2赞

感谢:grapes:

正则化为什么可以解决过拟合,有点不理解。除了吴恩达讲过的直接的感觉理解,这个问题可能在统计学有答案或者什么数学推导可以说梦。

统计学对参数估计有 无偏性 有效性 一致性的概念。最小二乘是线性回归的无偏估计,正则化是有偏估计,通过增加偏差降低估计的方差。具体的得找本回归的书,看看岭回归

贝叶斯的角度,l2是先验为高斯分布下的后验最大估计,l1是先验为拉普拉斯分布下的后验最大估计。

https://www.zhihu.com/question/23536142/answer/90135994

过拟合有个普遍现象就是得到的系数估计的绝对值比真值大,这个你可以自己写个告诫多项式回归的仿真案例看看。所以缓解过拟合的一种方式就是把这些系数往0收缩,通过给优化目标(loss funciton)添加正则化向(主要是对参数绝对值的惩罚)使得如果有过大绝对值的系数出现,优化目标自身也会变得很大。因而使得整体达到最小的系数估计会比不加正则化像的系数估计绝对值要小(向0收缩了),过拟合也一定程度被缓释了。

$\lambda = 0$的场景应该是无信息先验,此时贝叶斯估计和MLE一致。

线性回归求和符号下面的未知数j=1和后面的不统一,第一个exp后面应该少了个分母,我认为是2乘以方差。

下述公式中的 \sum 应该改为 \prod

所以由MAP estimation得到(n是数据点个数):

w = \text{argmax}_w \sum_i^n N(y_i | w \cdot x_i , \sigma^2) N(w | 0, 1/ \lambda)

另外,码农的数学基础未必好;建议给出详尽的推导过程,比较便于理解;参考如下,谢谢!

\begin{aligned} w &= \text{argmax}_w \underbrace{\prod_i^n}_{\color{red}{连乘而非连加}} N(y_i | w \cdot x_i , \sigma^2) N(w | 0, 1/ \lambda) \\ &= \text{argmax}_w \underbrace{\ln}_{单增函数} \prod_i^n \cdots \\ &= \text{argmax}_w \sum_i^n \left( \ln N(y_i | w \cdot x_i , \sigma^2) + \ln N(w | 0, 1/ \lambda) \right) \\ &= \text{argmax}_w \sum_i^n \left( \ln \left( \frac{1}{\sigma \sqrt{2 \pi}} \exp \left(-\frac{\left(y_{i}-w^{T} x_i\right)^2}{2\sigma^2}\right) \right) + \ln \left( \prod_{j=1}^{w的维度} \frac{\sqrt{\lambda}}{\sqrt{2 \pi}} \exp \left(-\frac{w_j^2}{ 2/\lambda }\right) \right) \right) \\ &= \text{argmax}_w \sum_i^n \left( \underbrace{\ln \left(\frac{1}{\sigma\sqrt{2\pi}}\right)}_{常数} -\frac{\left(y_{i}-w^{T} x_i\right)^2}{2\sigma^2} + \underbrace{ \frac{1}{2}\ln \left( \frac{\lambda}{2\pi} \right)}_{常数} - \sum_{j=1}^{w的维度} \frac{\lambda \cdot w_j^2}{2} \right)\\ &= \text{argmax}_w \sum_i^n -\left(\frac{y_i - \boldsymbol{w}^T \cdot \boldsymbol{x_i}}{\sigma}\right)^2 - \lambda \cdot \lvert \boldsymbol{w}\rvert^2 \end{aligned}

倒数第二行的常数项应该少了m倍