003 机器学习基础,003 机器学习中的基础知识

003 机器学习中的基础知识

摘要：

学习的目的就是找到最好的这样的模型。所有的数据集的损失函数的期望。

有些知识还是记录下来比较容易复习。

懂原理，会使用平台，使用语言实现常见算法。

1.大纲

机器学习的基本概念

机器学习的实质

机器学习方法的三要素

经验风险与结构风险

常见损失函数

一：基本概念

1.机器学习的方法流程

用监督学习为例

003 机器学习中的基础知识第1张

首先，有一个输入数据，然后根据这个输入数据做一些特征的加工和整理，基于特征进行模型的训练，去建模，然后做模型评估，得到一个可以接受的模型，然后对模型就行部署，使用模型对业务进行应用。

定期更新模型，对模型生命周期进行维护。

2.输入空间与输出空间

输入空间（input space）：将输入的所有可能取值的集合称作输入空间

输出空间（output space）：将输出的所有可能取值的集合作为输出空间

输入空间与输出空间可以是有限元素的集合，也可以是欧式空间

输出空间与输出空间可以是连续值的集合，也可以是离散集合

输入空间与输出空间可以是同一个空间

通常，输出空间比输入空间小

3.特征空间

特征：每个输入实例的各个部分称为原始特征，基于特征还可以扩展出衍生特征

特征向量：多个特征组合的集合

特征空间：将特征向量存在的空间称为特征空间

特征空间每一维都对应一个特性

特征空间可以与输入空间相同，也可以不同

需要将实例从输入空间映射到特征空间

模型实际上是定义特征空间之上的

4.输入空间与特征空间

需要将实例从输入空间映射到特征空间

模型实际上是定义特征空间之上的

5.假设空间

由输入空间到输出空间的映射的集合。

监督学习的目的在于学习一个由输入到输出的映射，这一映射由模型来表示。学习的目的就是找到最好的这样的模型。

模型属于输入空间到输出空间的映射集合，这个结合就是假设空间

举例：

003 机器学习中的基础知识第2张

003 机器学习中的基础知识第3张

二：机器学习方法的三要素

1.三要素

方法=模型+策略+算法

模型：输入空间到输出空间的映射关系，学习过程就是从假设空间中搜索适合当前数据的假设

策略：从假设空间众多的假设中选择最优模型的学习标准或者规则

算法：学习模型的具体计算方法，通常所以求解最优化问题

模型：确定学习范围

策略：确定学习规则

算法：按照规则在范围内学习

2.模型

分析当前需要解决的问题，确定模型。

003 机器学习中的基础知识第4张

3.策略

从假设空间众多假设中选择到最优的模型的学习标准或者规则

选择时，需要解决以下的问题：

评估对单个样本的效果

评估对训练集的整体效果

评估对包括训练集预测集在内的所有数据的整体效果

定义几个指标来衡量：

损失函数：0-1损失函数

风险函数：经验风险，期望风险，结构风险

策略：

经验风险最小EMR

结构风险最小SRM

4.损失函数

用来衡量预测结果与真实结果之间的差距，值越小，越一致

通常是一个非负实值函数

通过各种方式缩小损失函数的过程被称为优化，损失函数记做L（Y,f(x)）

常见：

0-1损失函数：预测值与实际值相同是没有损失为0，否是是完全损失，为1。过于严格，一般采用两者的差小于某个阈值的方式。

绝对值损失函数：预测结果与真实结果差的绝对值，简单易懂，但是计算不方便

平方损失函数：预测结果与真实结果差的平方。

优势：

每个差值都是正的，累加不会被抵消

平方对于大误差的惩罚大于小误差

数据计算简单，友好，导数为一次函数

对数损失函数：对数函数具有单调性，在求最优化问题时，结果与原始目标一致，可以将乘法转化为加法，简化计算

指数损失函数：单调性，非负性优良性质，使得越接近正确结果，误差越小

折叶损失函数：也叫铰链损失，对于判定边界附近的点的惩罚力度较高，常见于SVM。

使用场景：

0-1：理想状况模型

log：逻辑回归，交叉熵

squared：线性回归

exponential：AdaBoosting

Hinge：SVM，soft margin

5.经验风险与风险函数

经验风险：损失函数度量了单个样本的预测结果，想要很亮整个训练集的预测值与真实值的差异，将整个训练集所有记录均进行一次预测，求损失函数，将所有的值累加，即为经验风险。

经验风险越小，说明模型对训练集的拟合度越好。

003 机器学习中的基础知识第5张

风险函数：又要期望损失，期望风险。所有的数据集的损失函数的期望。

003 机器学习中的基础知识第6张

经验风险与期望风险：

期望风险是对全局的效果，经验风险对局部的效果

期望风险往往无法计算，经验风险可以计算

当训练集足够大时，经验风险可以替代期望风险

6.经验风险的的问题

在样本比较小时，仅关注经验风险，容易导致过拟合

7.结构风险

在经验风险的基础上，我们继续解决。

在经验风险的基础上，增加一个正则化项（Regularizer）或者为惩罚项（Penalty Term）。

003 机器学习中的基础知识第7张

结构风险与经验风险：

经验风险越小，模型决策函数越复杂，包含的参数越多

当经验风险函数小到一定程度就出现过拟合

防止过拟合的方式，就是降低决策函数的复杂度，让惩罚项最小化

需要同时保证经验风险函数与模型决策函数的复杂度都达到最小化

把两个式子融合得到结构风险函数，然后对这个结构风险函数进行最小化

8.范数

规则化函数有多重选择，一般的，他是模型复杂度的单调递增函数，模型越复杂，该函数的值越大，惩罚力度越大。

常用模型的参数向量的范数。

常用的范数有零范数，一范数，二范数。

003 机器学习中的基础知识第8张

公式：

003 机器学习中的基础知识第9张

Lo范数：非零的元素的个数

L1范数：各个元素的绝对值之和，使用L1，使得参数稀疏。

L2范数：各个元素的平方和求平方根，使得每个元素都很小，但是不会等于0，而是接近于0.

9.范数

003 机器学习中的基础知识第10张

免责声明：文章转载自《003 机器学习中的基础知识》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

自然语言处理(nlp)比计算机视觉(cv)发展缓慢，而且更难！

https://mp.weixin.qq.com/s/kWw0xce4kdCx62AflY6AzQ 1.抢跑的nlp nlp发展的历史非常早，因为人从计算机发明开始，就有对语言处理的需求。各种字符串算法都贯穿于计算机的发展历史中。伟大的乔姆斯基提出了生成文法，人类拥有的处理语言的最基本框架，自动机(正则表达式)，随机上下文无关分析树，字符串匹配算法KMP，...

动手学深度学习 | 使用和购买GPU | 15

目录使用GPU 购买GPU 整机配置 QA 使用GPU 其实如果没有钱买GPU的话，使用Google Colab也是一个不错的选择，大概是10 dollar一个月。算力其实是很贵的... 利用好算力是一件很重要的事情！关于Nvidia Driver too old的问题，如果是服务器的话，这里不要盲目的去更新显卡驱动，这样子会把别人的环...

深度学习Tensorflow生产环境部署（下·模型部署篇）

前一篇讲过环境的部署篇，这一次就讲讲从代码角度如何导出pb模型，如何进行服务调用。 1 hello world篇部署完docker后，如果是cpu环境，可以直接拉取tensorflow/serving，如果是GPU环境则麻烦点，具体参考前一篇，这里就不再赘述了。 cpu版本的可以直接拉取tensorflow/serving，docker会自动拉取late...

如何解决机器学习中数据不平衡问题(转)

作者：无影随想时间：2016年1月。出处：http://www.zhaokv.com/2016/01/learning-from-imbalanced-data.html 这几年来，机器学习和数据挖掘非常火热，它们逐渐为世界带来实际价值。与此同时，越来越多的机器学习算法从学术界走向工业界，而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的，但绝对是最...

评估机器学习模型的几种方法（验证集的重要性）

什么是评估机器学习模型　　机器学习的目的是得到可以泛化（generalize）的模型，即在前所未见的数据上表现很好的模型，而过拟合则是核心难点。你只能控制可以观察的事情，所以能够可靠地衡量模型的泛化能力非常重要。　　如何衡量泛化能力，即如何评估机器学习模型。评估模型的重点是将数据划分为三个集合：训练集、验证集和测试集。在训练数据上训练模型，在...

使用pytorch完成kaggle猫狗图像识别

kaggle是一个为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台，在这上面有非常多的好项目、好资源可供机器学习、深度学习爱好者学习之用。碰巧最近入门了一门非常的深度学习框架：pytorch（如果你对pytorch不甚了解，请点击这里），所以今天我和大家一起用pytorch实现一个图像识别领域的入门项目：猫狗图像识别。深度学习...

003 机器学习中的基础知识

相关文章

自然语言处理(nlp)比计算机视觉(cv)发展缓慢，而且更难！

动手学深度学习 | 使用和购买GPU | 15

深度学习Tensorflow生产环境部署（下·模型部署篇）

如何解决机器学习中数据不平衡问题(转)

评估机器学习模型的几种方法（验证集的重要性）

使用pytorch完成kaggle猫狗图像识别

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表