机器学习(3)——多变量线性回归

摘要:
多元线性回归是指输入是多维的情况。为了预测给定条件下的房价,我们需要建立相应的线性回归模型。如果有n个变量,对应的多变量线性回归模型如下:注意上图中的x指的是一个训练样本,即每个训练样本都是(n+1)维向量多变量线性线性回归的成本函数。例如:其中x代表第i个样本,下面列出了单变量线性回归的梯度下降法(左)和多变量线性回归(右)的梯度下降方法α是学习率。

【一、多变量线性回归模型】

多变量线性回归是指输入为多维特征的情况。比如:

这里写图片描写叙述
在上图中可看出房子的价格price由四个变量(size、number of bedrooms、number of floors 、age of home)决定。为了能够预測给定条件(四个变量)下的房子的价格(y),我们须要建立对应的线性回归模型。

如果有n个变量,则对应的多变量线性回归模型例如以下:

这里写图片描写叙述

注意上图中的x是指一个训练样本,即每一个训练样本都是一个(n+1)维向量(包括附加的x0=1)

【二、代价函数】

多变量线性回归的代价函数例如以下:
这里写图片描写叙述
当中x(i)代表第i个样本

【三、梯度下降法寻找最佳theta】

这里写图片描写叙述
以下列出单变量线性回归梯度下降法(左)多变量线性回归梯度下降法(右)
这里写图片描写叙述
当中α为学习率。

【梯度下降法的两个细节处理】:
1. Feature Normalization

By looking at the values, note that house sizes are about 1000 times the number of bedrooms. When features differ by orders of magnitude, first performing feature scaling can make gradient descent converge much more quickly。

也就是说当特征之间相差非常大时。比如房子的大小与卧室的数量。这样会导致梯度下降收敛比較慢。例如以下图(左边)所看到的,当对特征进行正规后,梯度下降收敛变快,例如以下图(右边)所看到的。


这里写图片描写叙述
正规化方法能够使用mean value and the standard deviation 法。或者其它方法。
这里写图片描写叙述
2. Selecting learning rates

学习率的正确选择应该保证每一步迭代后cost function都是下降的。例如以下图所看到的:

这里写图片描写叙述
如果学习率α过大,可能会使得代价函数上升,而不是一直呈现下降趋势。例如以下图。


这里写图片描写叙述
可是学习率α过小,那个梯度下降的收敛速度会太慢。

【选取学习率的方法】
这里写图片描写叙述

【四、正规方程解最佳theta】

这里写图片描写叙述

这里写图片描写叙述 。j=0,1,…………n

这里写图片描写叙述

这里写图片描写叙述
注意出现下列情况时:

这里写图片描写叙述

这时能够进行冗余feature的删除

免责声明:文章转载自《机器学习(3)——多变量线性回归》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇SQL Pretty Printer-不错的SQL格式化工具FIDO 标准简介下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

从零搭建企业大数据分析和机器学习平台-技术栈介绍(三)

数据传输和采集 Sqoop数据传输工具实际项目开发中,往往很多业务数据是存放在关系型数据库中,如 MySQL数据库。我们需要将这些数据集中到数据仓库中进行管理,便于使用计算模型进行统计、挖掘这类操作。 Sqoop是Apache软件基金会的⼀一款顶级开源数据传输工具,用于在 Hadoop与关系型数据库(如MySQL、Oracle、PostgreSQL等)之间...

五种回归方法的比较

 引言  线性和逻辑回归通常是人们为机器学习和数据科学学习的第一个建模算法。 两者都很棒,因为它们易于使用和解释。 然而,它们固有的简单性也有一些缺点,在许多情况下它们并不是回归模型的最佳选择。 实际上有几种不同类型的回归,每种都有自己的优点和缺点。   在这篇文章中,我们将讨论5种最常见的回归算法及其属性,同时评估他们的性能。 最后,希望让您更全面地了解...

机器学习 —— 概率图模型(推理:消息传递算法)

  概率图模型G(V,E)由节点V和边E构成。在之前马尔科夫模型相关的博客中,我谈到马尔科夫模型的本质是当两个人交流后,其意见(两个随机变量)同意0与不同意1的概率组合。而势函数表达的是两个意见相同或者相左的程度。   我们搞的那么麻烦,最后想要得到的不就是每个意见正确与否(随机变量取不同值的概率)吗?与其采用解析的方法去算,去把所有其他的变量边际掉,那干...

机器学习(二十一)— 特征工程、特征选择、归一化方法

  特征工程:特征选择,特征表达和特征预处理。 1、特征选择   特征选择也被称为变量选择和属性选择,它能够自动地选择数据中目标问题最为相关的属性。是在模型构建时中选择相关特征子集的过程。   特征选择与降维不同。虽说这两种方法都是要减少数据集中的特征数量,但降维相当于对所有特征进行了重新组合,而特征选择仅仅是保留或丢弃某些特征,而不改变特征本身。 降维常...

机器学习自动写诗-学习笔记

要先将字编码成向量 要对之前的信息有记忆 相同的输入,写诗,可能有不同的输出。 可以发现,输入不止与当前输入有关,还和之前的输入有关。要有记忆! 将隐藏层的激活值利用 循环神经网络 a0=0,初始值=0 上次输入的不同,记忆值不同,使得现在相同的输入可以得到不同的输出。 缺点:梯度爆炸和梯度消失 记忆值不断相乘累加。w^n 梯度...

Python机器学习(5)——朴素贝叶斯分类器

朴素贝叶斯分类器是一个以贝叶斯定理为基础,广泛应用于情感分类领域的优美分类器。本文我们尝试使用该分类器来解决上一篇文章中影评态度分类。 1、贝叶斯定理 假设对于某个数据集,随机变量C表示样本为C类的概率,F1表示测试样本某特征出现的概率,套用基本贝叶斯公式,则如下所示: 上式表示对于某个样本,特征F1出现时,该样本被分为C类的条件概率。那么如何用上式来...