机器学习

机器学习之聚类算法

(一)K-means 提到k-means不得不说的许高建老师,他似乎比较偏爱使用这种聚类方法,在N个不同场合听到他提起过,k-means通过设置重心和移动中心两个简答的步骤,就实现了数据的聚类。下面就来介绍下k-means算法。 一、   数值属性距离度量 度量数值属性相似度最简单的方法就是计算不同数值间的“距离”,如果两个数值之间“距离”比较大,就可以认为...

OpenCV 2.4+ C++ 人脸识别

机器学习 机器学习的目的是把数据转换成信息。 机器学习通过从数据里提取规则或模式来把数据转成信息。 人脸识别 人脸识别通过级联分类器对特征的分级筛选来确定是否是人脸。 每个节点的正确识别率很高,但正确拒绝率很低。 任一节点判断没有人脸特征则结束运算,宣布不是人脸。 全部节点通过,则宣布是人脸。 工业上,常用人脸识别技术来识别物体。  对图片进行识别...

机器学习基础:(Python)训练集测试集分割与交叉验证

在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章。在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具。我会解释当使用统计模型时,通常将模型拟合在训练集上,以便对未被训练的数据进行预测。 在统计学和机器学习领域中,我们通常把数据分成两个子集:训练数据和测试数据,并且把模型拟合到训练数据上,以...

CNN网络的基本介绍(二)

四、激活函数 激活函数又称非线性映射,顾名思义,激活函数的引入是为了增加整个网络的表达能力(即非线性)。若干线性操作层的堆叠仍然只能起到线性映射的作用,无法形成复杂的函数。常用的函数有sigmoid、双曲正切、线性修正单元函数等等。 使用一个神经网络时,需要决定使用哪种激活函数用隐藏层上,哪种用在输出节点上。    比如,在神经网路的前向传播中,这两步会使...

机器学习入门-决策树算法

决策树:从根节点开始一步步到叶子节点,所有的数据最后都落到叶子节点里面,既可以用来做分类也可以用来做回归 树的组成: 1.根节点(第一个参数)                    2.非子叶节点与分支: 中间过程                    3. 子叶节点,最终的决策结果 对于一些连续的变量来说,通常使用一刀切的方式。 决策树的训练与测试  ...

基于深度学习的视觉实例搜索研究进展

原文:http://chuansong.me/n/543805151251 近些年,深度学习在各种计算机视觉任务上都取得了重大的突破,其中一个重要因素就是其强大的非线性表示能力,能够理解图像更深层次的信息。本文对基于深度学习的视觉实例搜索方法做了简单的总结和概括,希望能给读者们带来启发。前言给定一张包含某个物体的查询图片,视觉实例搜索的任务就是从候选的图片...

机器学习sklearn(四十二):算法实例(十一)分类(五)RandomForestClassifier(二)实例:随机森林在乳腺癌数据上的调参

案例中,往往使用真实数据,为什么我们要使用sklearn自带的数据呢?因为真实数据在随机森林下的调参过程,往往非常缓慢。真实数据量大,维度高,在使用随机森林之前需要一系列的处理,因此不太适合用来做直播中的案例演示。在本章,我为大家准备了kaggle上下载的辨别手写数字的数据,有4W多条记录700多个左右的特征,随机森林在这个辨别手写数字的数据上有非常好的表...

支持向量机(SVM)

一、概念   1、分离超平面:空间内能够将数据分为不同类别的平面   2、线性可分:不同类别数据能够被一个超平面完全分开   3、损失项:模型在数据上违反自身分类原则的程度(是一个求和项)    4、损失系数:损失项的系数(是一个超参数,由模型给定)   5、损失函数L = min (1/2*(||w||)2) + C*max(Σi max(0,1-y(i...

003 机器学习中的基础知识

有些知识还是记录下来比较容易复习。 懂原理, 会使用平台,使用语言实现常见算法。 1.大纲 机器学习的基本概念 机器学习的实质 机器学习方法的三要素 经验风险与结构风险 常见损失函数 一:基本概念 1.机器学习的方法流程 用监督学习为例 首先,有一个输入数据,然后根据这个输入数据做一些特征的加工和整理,基于特征进行模型的训练,去建模,然后做模型评估,得到...

可视化机器学习工具软件的比较分析研究

可视化机器学习工具软件的比较分析研究 Ø 摘要 近年来,随着人脸识别、语音识别等技术的突破性进展,隐藏在它们背后的底层技术也引起工程和研究人员的高度重视,譬如机器学习。然而,机器学习是一个入门门槛相对比较高的技术领域,大部分的工程技术人员和业务人员都聚焦在业务领域的特征提取,算法选择,参数调优和模型验证上,因此一个方便高效的可视化工具,对于降低用户的机器...