逻辑回归模型预测股票涨跌

摘要:
123456789101112131415161718192021˃附件˃#2005年之前的数据用作训练集,2005年的数据用作测试集˃train=Year#为训练集构建逻辑模型˃glm Fit=glm˃#预测测试集中的训练模型。Type=“response”表示仅返回概率值˃glm。探针=预测(glm.fit,newdata=Smark[!

http://www.cnblogs.com/lafengdatascientist/p/5567038.html

逻辑回归模型预测股票涨跌

逻辑回归是一个分类器,其基本思想可以概括为:对于一个二分类(0~1)问题,若P(Y=1/X)>0.5则归为1类,若P(Y=1/X)<0.5,则归为0类。

一、模型概述

1、Sigmoid函数

为了具象化前文的基本思想,这里介绍Sigmoid函数:

逻辑回归模型预测股票涨跌第1张

函数图像如下:

逻辑回归模型预测股票涨跌第2张

红色的线条,即x=0处将Sigmoid曲线分成了两部分:当 x < 0,y < 0.5 ;
当x > 0时,y > 0.5 。

实际分类问题中,往往根据多个预测变量来对响应变量进行分类。因此Sigmoid函数要与一个多元线性函数进行复合,才能应用于逻辑回归。

2、逻辑斯谛模型

逻辑回归模型预测股票涨跌第3张

其中θx=θ1x1+θ2x2+……+θnxn 是一个多元线性模型。

上式可转化为:

逻辑回归模型预测股票涨跌第4张

公式左侧称为发生比(odd)。当p(X)接近于0时,发生比就趋近于0;当p(X)接近于1时,发生比就趋近于∞。

两边取对数有:

逻辑回归模型预测股票涨跌第5张

公式左侧称为对数发生比(log-odd)或分对数(logit),上式就变成了一个线性模型。

不过相对于最小二乘拟合,极大似然法有更好的统计性质。逻辑回归一般用极大似然法来拟合,拟合过程这里略过,下面只介绍如何用R应用逻辑回归算法。

二、逻辑回归应用

1、数据集

应用ISLR包里的Smarket数据集。先来看一下数据集的结构:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
summary(Smarket)
      Year           Lag1                Lag2         
 Min.   :2001   Min.   :-4.922000   Min.   :-4.922000 
 1st Qu.:2002   1st Qu.:-0.639500   1st Qu.:-0.639500 
 Median :2003   Median : 0.039000   Median : 0.039000 
 Mean   :2003   Mean   : 0.003834   Mean   : 0.003919 
 3rd Qu.:2004   3rd Qu.: 0.596750   3rd Qu.: 0.596750 
 Max.   :2005   Max.   : 5.733000   Max.   : 5.733000 
      Lag3                Lag4                Lag5        
 Min.   :-4.922000   Min.   :-4.922000   Min.   :-4.92200 
 1st Qu.:-0.640000   1st Qu.:-0.640000   1st Qu.:-0.64000 
 Median : 0.038500   Median : 0.038500   Median : 0.03850 
 Mean   : 0.001716   Mean   : 0.001636   Mean   : 0.00561 
 3rd Qu.: 0.596750   3rd Qu.: 0.596750   3rd Qu.: 0.59700 
 Max.   : 5.733000   Max.   : 5.733000   Max.   : 5.73300 
     Volume           Today           Direction
 Min.   :0.3561   Min.   :-4.922000   Down:602 
 1st Qu.:1.2574   1st Qu.:-0.639500   Up  :648 
 Median :1.4229   Median : 0.038500            
 Mean   :1.4783   Mean   : 0.003138            
 3rd Qu.:1.6417   3rd Qu.: 0.596750            
 Max.   :3.1525   Max.   : 5.733000

  

Smarket是2001年到2005年间1250天的股票投资回报率数据,Year是年份,Lag1~Lag5分别指过去5个交易日的投资回报率,Today是今日投资回报率,Direction是市场走势,或Up(涨)或Down(跌)。

先看一下各变量的相关系数:

1
2
3
library(corrplot)
corrplot(corr = cor(Smarket[,-9]),order = "AOE",type = "upper",tl.pos = "d")
corrplot(corr = cor(Smarket[,-9]),add=TRUE,type = "lower",method = "number",order = "AOE",diag = FALSE,tl.pos = "n",cl.pos = "n")

  逻辑回归模型预测股票涨跌第6张

可见除了VolumeYear之间相关系数比较大,说明交易量基本随年份在增长,其他变量间基本没多大的相关性。说明股票的历史数据与未来的数据相关性很小,利用监督式学习方法很难准确预测未来股市的情况,这也是符合常识的。不过作为算法的应用教程,我们还是试一下。

2、训练并测试逻辑回归模型

逻辑回归模型是广义线性回归模型的一种,因此函数是glm(),但必须加上参数family=binomial

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
attach(Smarket)
# 2005年前的数据用作训练集,2005年的数据用作测试集
> train = Year<2005
# 对训练集构建逻辑斯谛模型
> glm.fit=glm(Direction~Lag1+Lag2+Lag3+Lag4+Lag5+Volume,
+             data=Smarket,family=binomial, subset=train)
# 对训练好的模型在测试集中进行预测,type="response"表示只返回概率值
> glm.probs=predict(glm.fit,newdata=Smarket[!train,],type="response")
# 根据概率值进行涨跌分类
> glm.pred=ifelse(glm.probs >0.5,"Up","Down")
# 2005年实际的涨跌状况
> Direction.2005=Smarket$Direction[!train]
# 预测值和实际值作对比
table(glm.pred,Direction.2005)
        Direction.2005
glm.pred Down Up
    Down   77 97
    Up     34 44
# 求预测的准确率
mean(glm.pred==Direction.2005)
[1] 0.4801587

  预测准确率只有0.48,还不如瞎猜。下面尝试着调整模型。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
#检查一下模型概况
summary(glm.fit)
Call:
glm(formula = Direction ~ Lag1 + Lag2 + Lag3 + Lag4 + Lag5 +
    Volume, family = binomial, data = Smarket, subset = train)
Deviance Residuals:
   Min      1Q  Median      3Q     Max 
-1.302  -1.190   1.079   1.160   1.350 
Coefficients:
             Estimate Std. Error z value Pr(>|z|)
(Intercept)  0.191213   0.333690   0.573    0.567
Lag1        -0.054178   0.051785  -1.046    0.295
Lag2        -0.045805   0.051797  -0.884    0.377
Lag3         0.007200   0.051644   0.139    0.889
Lag4         0.006441   0.051706   0.125    0.901
Lag5        -0.004223   0.051138  -0.083    0.934
Volume      -0.116257   0.239618  -0.485    0.628
(Dispersion parameter for binomial family taken to be 1)
    Null deviance: 1383.3  on 997  degrees of freedom
Residual deviance: 1381.1  on 991  degrees of freedom
AIC: 1395.1
Number of Fisher Scoring iterations: 3

  

可以发现所有变量的p值都比较大,都不显著。前面线性回归章节中提到AIC越小,模型越优,这里的AIC还是比较大的。

加入与响应变量无关的预测变量会造成测试错误率的增大(因为这样的预测变量会增大模型方差,但不会相应地降低模型偏差),所以去除这样的预测变量可能会优化模型。

上面模型中Lag1和Lag2的p值明显比其他变量要小,因此只选这两个变量再次进行训练。

1
2
3
4
5
6
7
8
9
10
11
12
13
> glm.fit=glm(Direction~Lag1+Lag2,
+             data=Smarket,family=binomial, subset=train)
> glm.probs=predict(glm.fit,newdata=Smarket[!train,],type="response")
> glm.pred=ifelse(glm.probs >0.5,"Up","Down")
table(glm.pred,Direction.2005)
        Direction.2005
glm.pred Down  Up
    Down   35  35
    Up     76 106
mean(glm.pred==Direction.2005)
[1] 0.5595238
> 106/(76+106)
[1] 0.5824176

  

这次模型的总体准确率达到了56%,总算说明统计模型的预测准确度比瞎猜要好(虽然只有一点点)。根据混淆矩阵,当逻辑回归模型预测下跌时,有50%的准确率;当逻辑回归模型预测上涨时,有58%的准确率。(矩阵的行名表预测值,列名表实际值)

应用这个模型来预测2组新的数据:

1
2
3
> predict(glm.fit,newdata = data.frame(Lag1=c(1.2,1.5),Lag2=c(1.1,-0.8)),type="response")
        1         2
0.4791462 0.4960939

  可见对于(Lag1,Lag2)=(1.2,1.1)和(1.5,-0.8)这两点来说,模型预测的都是股票会跌。需要注意的是,逻辑回归的预测结果并不能像线性回归一样提供置信区间(或预测区间),因此加上interval参数也没用。

免责声明:文章转载自《逻辑回归模型预测股票涨跌》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇ES6中的函数、对象定义HQL中左连接,右连接,内连接下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

机器学习与R语言

此书网上有英文电子版:Machine Learning with R - Second Edition [eBook].pdf(附带源码) 评价本书:入门级的好书,介绍了多种机器学习方法,全部用R相关的包实现,案例十分详实,理论与实例结合。 目录 第一章 机器学习简介 第二章 数据的管理和理解 第三章 懒惰学习--使用近邻分类 第四章 概率学习--朴素贝...

时间序列预测——深度好文,ARIMA是最难用的(数据预处理过程不适合工业应用),线性回归模型简单适用,预测趋势很不错,xgboost的话,不太适合趋势预测,如果数据平稳也可以使用。

补充:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-15-276 如果用arima的话,还不如使用随机森林。。。   原文地址:https://medium.com/open-machine-learning-course/open-machine-learni...

ThinkPHP中M方法与D方法有什么区别

ThinkPHP 中M方法和D方法都用于实例化一个模型类,M方法 用于高效实例化一个基础模型类,而 D方法 用于实例化一个用户定义模型类。 使用M方法 如果是如下情况,请考虑使用 M方法: 对数据表进行简单的 CURD 操作而无复杂的业务逻辑时 只有个别的表有较为复杂的业务逻辑时,将 M方法 与实例化 CommonModel 类进行结合使用 M方法 甚至可...

CNN中的卷积

1、什么是卷积:图像中不同数据窗口的数据和卷积核(一个滤波矩阵)作内积的操作叫做卷积。其计算过程又称为滤波(filter),本质是提取图像不同频段的特征。 2、什么是卷积核:也称为滤波器filter,带着一组固定权重的神经元,通常是n*m二维的矩阵,n和m也是神经元的感受野。n*m 矩阵中存的是对感受野中数据处理的系数。一个卷积核的滤波可以用来提取特定的特...

YOLO V2论文理解

概述 YOLO(You Only Look Once: Unified, Real-Time Object Detection)从v1版本进化到了v2版本,作者在darknet主页先行一步放出源代码,论文在我们等候之下终于在12月25日发布出来。 新的YOLO版本论文全名叫“YOLO9000: Better, Faster, Stronger”,主要有两个...

spark Pipeline,逻辑回归、svm等算法交叉验证

交叉验证应用与各种算法中,用于验证超参数的最优值。 常用的算法有逻辑回归、神经网络、ALS、SVM、决策树等。 Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法...