Lasso估计论文学习笔记(一)

摘要:
最近,我读了这篇经典论文,并为课程作业写了一篇学习笔记。这主要是关于论文前半部分对拉索思想的理解。后来的实验和参数估计没有写太多。如果中间有错误,我希望你能提醒我。新手可以原谅我。这样才能理解本文的目的。作者提出的Lasso是一种具有岭回归和子集选择优点的估计方法。

最近课程作业让阅读了Lasso估计论文学习笔记(一)第1张这篇经典的论文,写篇学习笔记。

主要是对论文前半部分Lasso思想的理解,后面实验以及参数估计部分没有怎么写,中间有错误希望能提醒一下,新手原谅一下。

1.整体思路

  作者提出了一种收缩和选择方法Lasso,这是一种可以用于线性回归的新的估计方法。它具有子集选择和岭回归的各自的优点。像子集选择一样可以给出具有解释力的模型,又能像岭回归一样具有可导的特性,比较稳定。同时避免了子集选择不可导,部分变化引起整体巨大变化这一不稳定的缺点。以及岭回归不能很好的收缩到0的缺点。

2.对文章目的理解

  为了理解这篇文章是做了什么事情,先要明白回归的收缩和选择是用来做什么的。

  我们用某一个模型F来回归拟合某一问题时,往往容易遇到过拟合的问题。这是经常是由于,模型过于复杂,比如参数过多,变量指数过高。过度拟合了训练数据,导致模型的泛化能力变差。这是需要引入正则化项(惩罚项)来使模型最后训练的结果不至于太过于复杂(过拟合)。

  正则化一般具有如下形式:

Lasso估计论文学习笔记(一)第2张Lasso估计论文学习笔记(一)第3张是经验风险。J(f)是正则化项,就代表了对模型复杂度的惩罚,只要它能做到模型越复杂,J(f)值越大。所以最小化损失函数时,就会令经验风险尽量小的同时,考虑让模型复杂度也不要太大。这样虽然会提高模型的训练误差,甚至可能某些正则化操作会使模型偏差(Bias)变大,但是会提高模型的稳定程度(方差更小,模型更简单),减少模型的泛化误差。

  这里有两个问题!

(1)  模型的简单体现在什么方面?(模型如何简化)

(2)  正则化是怎么让模型变简单的?

  先说问题(1),考虑模型Lasso估计论文学习笔记(一)第4张。向量X是特征向量,向量W是其对应的参数。模型复杂,一是体现在特征过多,第二是体现在X的指数过高。那么如何令模型变得简单呢,自然而然的想到若某些参数为0,那么就相当于不考虑这些特征Xi了(这就是子集选择的思想)。或者令某些参数缩小,这样不重要的特征对结果造成的影响也会变小(这就是shrinkage的思想)。当然有些参数在缩小过程中会变成0,这就是在收缩过程中起到了子集选择的效果。

  那么关键的来了,问题(2)正则化是怎么让模型变简单的呢。上一段分析出,如果让某些不重要的参数进行收缩,能够使模型变得简化。再来看看正则化的例子: 

Lasso估计论文学习笔记(一)第5张

  以J(f)取||w||为例,可以看出,如果参数W越多,或者整理模的平方和越大,||w||就越大。所以在最小化代价函数的过程,就会考虑让参数的平方和也尽可能小(整体最小的前提下)。所以设不加正则化项的估计出的向量为Lasso估计论文学习笔记(一)第6张,加了正则化项的估计出得参数向量为Lasso估计论文学习笔记(一)第7张。那么可以看出Lasso估计论文学习笔记(一)第8张。所以正则化项起到了shrinkage参数的效果,如果有些参数在收缩过程中精确到0,就相当于子集选择的效果(我们是希望这样的)。

  那么这篇文章的目的就可以理解了,作者提出的Lasso就是一种具有岭回归(可导可直接求最小值)和子集选择(部分参数为0)的优点的估计方法(也可以说一种正则化的方法)。

 3.方法对比及Lasso引入

  之前是在word写的,这里为了方便截图一下。

Lasso估计论文学习笔记(一)第9张

Lasso估计论文学习笔记(一)第10张

免责声明:文章转载自《Lasso估计论文学习笔记(一)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇C# 判断用户是否对路径拥有访问权限Flutter BottomSheet底部弹窗效果下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

机器学习(二十一)— 特征工程、特征选择、归一化方法

  特征工程:特征选择,特征表达和特征预处理。 1、特征选择   特征选择也被称为变量选择和属性选择,它能够自动地选择数据中目标问题最为相关的属性。是在模型构建时中选择相关特征子集的过程。   特征选择与降维不同。虽说这两种方法都是要减少数据集中的特征数量,但降维相当于对所有特征进行了重新组合,而特征选择仅仅是保留或丢弃某些特征,而不改变特征本身。 降维常...

线性模型——异方差、序列相关、多重共线性与内生性的处理

在实际的计量经济学问题中,完全满足回归的基本假设的情况并不多见。不满足基本假定的情况。称为违背基本假定 违背基本假定的情况主要包括: 随机干扰项存在异方差 随机干扰项的序列相关(或称自相关) 解释变量之间的多重共线 解释变量为随机变量,存在内生性 异方差性 线性模型的基本假设中有var(u|x1,x2...xk)=d,即随机干扰项的方差不因自变量的不...

YOLO v4分析

YOLO v4分析 YOLO v4 的作者共有三位:Alexey Bochkovskiy、Chien-Yao Wang 和 Hong-Yuan Mark Liao。其中一作 Alexey Bochkovskiy 是位俄罗斯开发者,此前曾做出 YOLO 的 windows 版本。那么,YOLOv4 性能如何呢? 在实际研究中,有很多特性可以提高卷积神经网络(...

机器学习——正则化与交叉验证

0正则化 模型选择的典型方法是正则化。正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化一般是模型复杂度的单调递增函数,模型越越复杂,正则化的值就越大,比如,正则化项可以是模型参数向量的范数: 其中,第1项是经验风险,第二项是正则化项,a>=0为调整两者之间的关系函数。 正则化项可以取不同的形式。例如,回归问题中,损失函...

参数估计|无偏性|有效性|一致性|

生物统计学-参数估计 参数估计需要未知参数的估计量和一定置信度 估计方法:用点估计估计一个值;用区间估计估计值的可能区间和是该值的可能性。 对估计值的评价标准: 无偏性是估计量(不一定是样本均值)抽样分布的数学期望等与总体参数的真值。 有效是有时几组数据都是无偏的,但是此时有效数是方差最小的。 一致性是指样本变大,估计越准。 现存方法都是通过这三个评价标准...

两个多维高斯分布之间的KL散度推导

  在深度学习中,我们通常对模型进行抽样并计算与真实样本之间的损失,来估计模型分布与真实分布之间的差异。并且损失可以定义得很简单,比如二范数即可。但是对于已知参数的两个确定分布之间的差异,我们就要通过推导的方式来计算了。   下面对已知均值与协方差矩阵的两个多维高斯分布之间的KL散度进行推导。当然,因为便于分布之间的逼近,Wasserstein dista...