L1正则化与L2正则化
创始人
2024-06-01 03:09:44
0

1.1-范数,2-范数

  • 1-范数:||X||_1=|x|_1+|x|_2+...+|x|_n
  • 2-范数:||X||_2 = (|x|_1^2+|x|_2^2+...+|x|_n^2)^{1/2}2-范数就是通常意义下的距离

2.L1和L2正则化

我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项。现在我们还是以最熟悉的线性回顾为例子。

  • 优化目标:

min\frac{1}{N}\sum_{i=1}^{N}{(y_i-w^Tx_i)}^2

  • 加上L1正则项

min\frac{1}{N}\sum_{i=1}^{N}{(y_i-w^Tx_i)}^2+C||w||_1

  • 加上L2正则项

min\frac{1}{N}\sum_{i=1}^{N}{(y_i-w^Tx_i)}^2+C||w||_2^2

我们的目标时使损失越小越好。

那加了L1正则化和L2正则化之后,对目标函数的求解有什么作用呢?

3.L1和L2正则化作用

假设X为一个二维样本,那么要求解的参数w也是二维:

  • 原函数曲线等高线(同颜色曲线上,每一组w1,w2带入值都相同)
图1 目标函数等高线
  • 加入L1和L2正则化的函数图像
图2 加入L1和L2正则的等高线

从上面两幅图中我们可以看出:

  • 如果不加L1和L2正则化的时候,对于线性回归这种目标函数凸函数的话,我们最终的结果就是最里面的紫色的小圈圈等高线上的点。
  • 当加入L1正则化的时候,我们先画出|w1|+|w2|=F的图像,也就是一个菱形,这些曲线上的点算出来的1范数|w1|+|w2|都为F。那现在的目标不仅是原曲线算的值要小,即越来越接近中心的紫色圆圈,还要使得这个菱形越来越小(F越来越小)。那么还和原来一样的化,过中心紫色圆圈的那个菱形明显很大,因此我们要取到一个恰好的值。那么如何求值呢?
图3 带L1正则化的目标函数求解

3.1 为什么说菱形和等高线相切的时候损失最小?

以原目标函数的曲线来说,在同一条等高线上,以最外圈的红色等高线为例。我们可以看到,对于红色曲线上的每个点都可以做一个菱形,根据上图3可知,当这个菱形和某条等高线相切的时候,这个菱形最小。

证明:同一等高线上的点能够使得\frac{1}{N}\sum_{i=1}^{N}(y_i-w^Tx_i)^2值相同,但是在相切的时候C||w||小,即|w1|+|w2|小,所以能够使得\frac{1}{N}\sum_{i=1}^{N}(y_i-w^Tx_i)^2+C||w||_1更小。

那么加入L1范数得到的解,一定是某个菱形和某条原函数等高线的切点。

3.2为什么加入L1正则化的解更容易稀疏?

我们可以观察到,几乎对于很多原函数等高线,和某个菱形相交的时候容易相交在坐标轴上,即最终结果解的某个维度极其容易为0,比如上图最终解释w=(0,x),这也就是我们所说的L1更容易得到稀疏解(解向量中0比较多)的原因。

证明:假设只有一个参数为w,损失函数为L(w),分别加上L1正则项和L2正则项后有:

J_{L1}(w)=L(w)+\lambda|w|

J_{L2}(w)=L(w)+\lambda|w|^2

假设L(w)在0处的导数为d_0,即

\frac{\partial L(w)}{\partial w}| _{w=0}=d_0

则可以推导使用L1正则和L2正则时的导数。

引入L2正则项,在0处的导数

\frac{\partial J_{L2}(w)}{\partial w}| _{w=0}=d_0+2*\lambda*w=d_0

引入L1正则项,在0处的导数

\frac{\partial J_{L1}(w)}{\partial w}| _{w=0^-}=d_0-\lambda

\frac{\partial J_{L1}(w)}{\partial w}| _{w=0^+}=d_0+\lambda

可见,引入L2正则时,代价函数在0处的导数仍然时d0,无变化。

而引入L1正则后,代价函数在0处的导数有一个突变。从d0+λ到d0-λ,如果d0+λ和d0-λ异号,则会在0处会是一个极小值。因此,优化时,很可能优化到该极小值点上,即w=0处。

这里只解释了有一个参数的情况,如果有更多的参数,也是类似的。因此,用L1正则更容易产生稀疏解。

3.3 加入L2正则化的结果

当加入L2正则化的时候,分析和L1正则化是类似的,也就是说我们仅仅是从菱形变成了圆形而已,同样还是求原曲线和圆形的切点作为最终解。当然与L1范数比,我们这样求得L2范数得从图上来看,不容易交在坐标轴上,但是仍然比较靠近坐标轴。因为这也就是我们经常说得,L2范数能让解比较小(靠近0),但是比较平滑(不等于0)

综上所述,我们可以看见,加入正则化项,在最小化经验误差得情况下,可以让我们选择解更简单(趋向于0)的解

从Bayes角度来看,L1,L2正则相当于对模型参数引入先验分布

  • L1正则:模型参数服从拉普拉斯分布,对参数加入分布约束,大部分取值为0.

特征选择:稀疏性(权值稀疏)

鲁棒性:忽略异常点

  • L2正则:模型参数服从高斯分布,对参数加了分布约束,大部分取值很小。

解决过拟合

易优化和计算(权值平滑)

稳定性好

对异常点敏感:误差取平方后放大。

稳定性比较解释

L1存在ill condition(病态)问题:输入发生微小变化导致输出发生很大改变。

对L1的病态问题大概理解一下,如上图所示,用批数据训练,每次批数据都会有稍稍不同的误差曲线。L2针对这种变动,白点的移动不会太大,而L1的白点则可能跳到许多不同的地方没因为这些地方的总误差都是差不多的。侧面说明了L1解的不稳定性。

https://www.cnblogs.com/lyxLearningNotes/p/16143387.html

L1 与 L2 正则化 - 简书

相关内容

热门资讯

atv系统和安卓9.0,引领智... 你有没有想过,你的手机和你的ATV(全地形车)之间能有什么交集呢?别惊讶,今天就要给你揭秘这个奇妙的...
安卓最好用省电的系统,探索最佳... 你有没有发现,手机用着用着,电池就“咕咚咕咚”地叫唤起来?别急,今天就来给你揭秘,安卓世界里那些最好...
有哪些安卓类型的系统,多款定制... 你知道吗?在手机世界里,安卓系统就像是个万能的魔法师,它不仅能变出各种各样的手机,还能衍生出各种有趣...
安卓系统精简多少内存,提升运行... 你有没有想过,你的安卓手机为什么有时候会变得那么慢呢?是不是觉得内存不够用,总是卡卡的?别急,今天就...
高端安卓工控系统哪个好,揭秘最... 你有没有想过,家里的智能设备越来越多了,但它们之间的沟通却总是有点儿“鸡同鸭讲”?这不,最近我在研究...
安卓系统识别磁盘格式,磁盘格式... 你有没有遇到过这种情况:手机里突然多了一个陌生的磁盘,你好奇地想看看里面有什么宝贝,却发现安卓系统竟...
惠普平板怎么换安卓系统,惠普平... 你有没有发现,惠普平板电脑的安卓系统有时候用起来还挺不顺手的?别急,今天就来手把手教你如何给惠普平板...
手机显示安卓系统有攻击,揭秘手... 最近是不是发现你的手机屏幕上突然弹出了好多奇怪的提示,说是安卓系统有攻击?别慌,这可不是什么科幻电影...
安卓系统合并分区工具,高效优化... 你有没有想过,你的安卓手机里那些零零散散的存储空间,其实可以变得井井有条呢?没错,今天就要给你安利一...
超好玩安卓系统游戏,解锁无限游... 你有没有发现,最近手机里的游戏越来越好玩了?尤其是那些安卓系统上的游戏,简直让人停不下来!今天,就让...
mate关闭安卓系统通知,深度... 你是不是也和我一样,手机里通知乱糟糟的,有时候连个重要信息都找不到?别急,今天就来和你聊聊如何让你的...
安卓系统诺基亚n96 你有没有想过,那个曾经风靡一时的诺基亚N96,现在在安卓系统下还能焕发出怎样的光彩呢?今天,就让我带...
安卓类原生系统下载方法,安卓原... 你有没有想过,为什么你的手机总是那么卡,那么慢?是不是因为它的系统太老了,需要更新一下呢?别急,今天...
安卓系统车机界面,智能驾驶体验... 你有没有发现,现在越来越多的汽车都开始搭载智能系统了?没错,就是那种可以连接手机、导航、娱乐一应俱全...
神器系统和安卓内存对比,性能与... 你有没有想过,为什么你的手机有时候会卡得像蜗牛一样?其实,这背后有一个神秘的大脑在默默操控着——那就...
鸿蒙系统版本安卓版区别,安卓版... 你有没有发现,最近手机圈子里有个大热门,那就是鸿蒙系统。没错,就是那个华为自主研发的系统。不过,你知...
韶关安卓系统广告机,智能展示新... 韶关安卓系统广告机:点亮城市繁华的智慧之光想象当你走在韶关的街头,突然间,一块块屏幕如同魔法般亮起,...
安卓系统收据怎么开启,实际应用... 你有没有发现,安卓手机里的收据功能超级实用,但是很多人却不知道怎么开启它呢?别急,今天就来手把手教你...
安卓8.0系统有多厉害,引领智... 你有没有发现,最近你的安卓手机是不是变得超级聪明,好像懂你的心思一样?没错,这就是安卓8.0系统的魔...
安卓升级系统占内存多少,升级前... 你有没有发现,每次安卓系统一升级,手机就像喝饱了水一样,膨胀了不少呢?这不,最近就有小伙伴好奇地问,...