调整的R方_如何选择回归模型

摘要:
样本量越大,调整后的R-侧惩罚机制越小。调整后的R-侧惩罚机制越多,样本量越小。惩罚机制越严厉。调整后的R侧越小,变量越少。惩罚机制越严格。调整后的R边越大。n=13个样本p=2变量数量adjR2=rSquared-*=0.63-rSquared=0.63109603807606962rSquared _ Adj=0.59755931426480324n=13样本n越大,(n-p)越大,R调整越大,变量解释越大。

 python风控建模实战lendingClub(博主录制,catboost,lightgbm建模,2K超清分辨率)

https://study.163.com/course/courseMain.htm?courseId=1005988013&share=2&shareId=400000000398149

调整的R方_如何选择回归模型第1张

 

 

1.选择最简单模型

   如果不能满足:

           增加参数,增加R**2

                 判断是否overfittiing

                        调整R方,BIC,AIC(选择较小BIC或AIC值)

R方不能比较参数不同模型,但调整后R方可以比较不同参数模型

如果添加一个新的变量,但调整R方变小,这个变量就是多余的

如果添加一个新的变量,但调整R方变大,这个变量就是有用的

R^2很小得谨慎,说明你选的解释变量解释能力不足,有可能有其他重要变量被纳入到误差项。可尝试寻找其他相关变量进行多元回归

这个问题在伍德里奇的书里有说明,可绝系数只是判断模型优劣的指标之一,而不是全部,特别是当使用微观数据,样本量比较大的时候,可绝系数可以很小,但这并不能表示模型就差。

显著但是R值小,要考虑不同的专业背景。
有的专业确实比较小,楼主的例子,我觉得这个大小就能接受了。
态度与行为之间的影响因素非常多,态度能解释行为11-15%已经不小了。

F检验是对整个模型而已的,看是不是自变量系数不全为0,而t检验则是分别针对某个自变量的,看每个自变量是否有显著预测效力。

              调整R方VS样本量VS变量数量                                    

样本量越大,调整的R方惩罚机制越小,调整的R方越大

样本量越小,调整的R方惩罚机制越大,调整的R方越小

变量越多,惩罚机制越严重,调整R方越小

变量越少,惩罚机制越严小,调整R方越大

n=13 样本
p=2 变量数量
adjR2=rSquared-(1-rSquared)*((p-1)/(n-p))=0.63-(1-0.63)

rSquared=0.63109603807606962

rSquared_adj=0.59755931426480324


n=13 样本
n越大,(n-p)大,(p-1)/(n-p)越小,(1-rSquared)*((p-1)/(n-p))越小,rSquared-(1-rSquared)*((p-1)/(n-p))越大,即样本量越大,调整R方越大,变量解释力度越大。

p=2 变量数量
参数多,p大,(P-1)越大,(n-p)越小
,(p-1)/(n-p)越大,
rSquared-(1-rSquared)*((p-1)/(n-p)) 越小,即adjR2越小。所以变量越多,惩罚机制越严重,调整R方越小

测试Python脚本

导入excel数据

调整的R方_如何选择回归模型第2张

import pandas as pd
df=pd.read_excel("土壤沉淀物吸收能力采样数据-不存在共线性.xlsx") 
array_values=df.values
x1=[i[0] for i in array_values]
x2=[i[1] for i in array_values]

df = pd.DataFrame({'x':x1, 'y':x2})
# Fit the model
model = ols("y~x", df).fit()
rSquared_adj=model.rsquared_adj
rSquared=model.rsquared


n=13 #样本
p=2  #变量数量
adjR2=rSquared-(1-rSquared)*((p-1)/(n-p))


#最终adjR2和rSquared_adj是相等的

  

调整的R方_如何选择回归模型第3张

 n为样本个数,p为变量数

调整的R方_如何选择回归模型第4张

调整的R方_如何选择回归模型第5张

调整的R方_如何选择回归模型第6张

调整的R方_如何选择回归模型第7张

调整的R方_如何选择回归模型第8张

python信用评分卡建模(附代码,博主录制)

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

调整的R方_如何选择回归模型第9张

 

 微信扫二维码,免费学习更多python资源

 

调整的R方_如何选择回归模型第10张

 

免责声明:文章转载自《调整的R方_如何选择回归模型》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇爱普生EPSON打印机 ME1+ (ME1)清零软件及方法我想要得那块牌—记烟台大学第一届"ACM讲堂"下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

sap ABAP关于Data Reference的使用FIELDSYMBOLS

Data References(只能指向abap定义的基本数据或者基本数据组合体) 1、定义数据参考变量(Data References) DATA dref TYPE REF TO DATA.(指向任意类型,但在创建时必须指定对象类型) DATA dref TYPE REF TO DATA_TYPE. 或者 TYPES t_dref TYPE RE...

OC 学习第一天

1. OC简介 OC是一种面向对象的计算机语言。 OC实在C语言的基础上增加了一层最小的面向对象语法,完全兼容C语言。 2. OC学习目标 - 语法学习 - 建立面向对象思维能力 -建立基本项目需求分析能力 3. 面向对象思想 面向对象是一种对现实世界理解和抽象的方法,关注的是解决问题需要哪些对象,将功能封装进对象,强调具备了功能的对象。 4. 类与对象...

less 官网讲解 ( http://www.bootcss.com/p/lesscss/ )

变量 变量允许我们单独定义一系列通用的样式,然后在需要的时候去调用。所以在做全局样式调整的时候我们可能只需要修改几行代码就可以了。 // LESS @color: #4D926F; #header { color: @color; } h2 { color: @color; } /* 生成的 CSS */ #header { co...

VB可变数组定义

关键点:Dim str() As string '定义redim str(n) '重设长度 or redim Preserve str(n) '重设长度,并保持原来记录不变 详细阐述:ReDim 语句 在过程级别中使用,用于为动态数组变量重新分配存储空间。 语法 ReDim [Preserve] varname(subscripts) [As type]...

Linux程序调试GDB——数据查看

查看栈信息 当程序被停住了,首先要确认的就是程序是在哪儿被断住的。这个一般是通过查看调用栈信息来看的。在gdb中,查看调用栈的命令是backtrace,可以简写为bt。 (gdb) bt#0 pop () at stack.c:10#1 0x080484a6 in main () at main.c:12 也可以通过info stack命令实现类似的功能...

R语言用向量自回归(VAR)进行经济数据脉冲响应研究分析

原文链接:http://tecdat.cn/?p=9368 自从Sims(1980)发表开创性的论文以来,向量自回归模型已经成为宏观经济研究中的关键工具。这篇文章介绍了VAR分析的基本概念,并指导了简单模型的估算过程。 单变量自回归 VAR代表向量自回归。为了理解这意味着什么,让我们首先来看一个简单的单变量(即仅一个因变量或内生变量)自回归(AR)模...