样本

精确率,召回率

精确率 P = TP/(TP+FP) ;  反映了被分类器判定的正例中真正的正例样本的比重 召回率 R = TP/(TP+FN),反映了被正确分类的正样本占所有正样本的比例  准确率(Accuracy)A = (TP + TN)/(P+N) = (TP + TN)/(TP + FN + FP + TN);     反映了分类器统对整个样本的判定能力——能将...

交叉验证初识

交叉验证 这只是做一个简单的笔记, 毕竟作为调参侠, 很多需要人工设置的超参数, 是优化模型里非常重要一部分, 凡是涉及到了设置超参数, 必然要做交叉验证 or 网格搜索 呀, 选择更好的模型嘛. 不使用交叉验证 比如像 线性回归, 就可以不用交叉验证. 但有一点是基本的, 样本的划分 训练集 测试集 这是最为基本的尝试, 用训练集来训练模型参数, 用...

从核函数到SVM原理--sklearn-SVM实现

SVM核函数及sklearn实现SVM 在SVM中,其中最重要的也是最核心的就是核函数的选取和参数选择,当然这个需要大量的经验来支撑。今天我们就是抛砖引玉形象的讲解一下什么是核函数,及在SVM中在哪用到。 我们知道,SVM相对感知机而言,它可以解决线性不可分的问题,那么它是怎么解决的呢?它的解决思想很简单,就是对原始数据的维度变换,一般是扩维变换,使得原样...

二、Metrics指标类型

Prometheus 的客户端库中提供了四种核心的指标类型。但这些类型只是在客户端库(客户端可以根据不同的数据类型调用不同的 API 接口)和在线协议中,实际在 Prometheus server 中并不对指标类型进行区分,而是简单地把这些指标统一视为无类型的时间序列 2.1、Counter (计数器) ​ Counter 类型代表一种样本数据单调递增的指...

离群值检测

离群值检测 离群值 outlier:样本中的一个或几个观测值,它们离其他观测值较远,暗示它们可能来自不同的总体。 离群值分类 总体固有变异性的极端表现,这类离群值与样本的其余观测值属于统一总体; 由于试验条件和试验方法的偶然偏离所产生的结果,或产生与观察、记录、计算中的失误,这类离群值与样本中其余观测值不属于统一总体。 数学小知识 方差: 标准差: ​...

机器学习:决策树(二)——sklearn决策树调参

参数解析 参数 DecisionTreeClassifier DecisionTreeRegressor 特征选择标准criterion 可以使用"gini"或者"entropy",前者代表基尼系数,后者代表信息增益。一般说使用默认的基尼系数"gini"就可以了,即CART算法。除非你更喜欢类似ID3, C4.5的最优特征选择方法。 可以使用"m...

机器学习概念性知识总结

6,正则化: http://blog.csdn.net/zouxy09/article/details/24971995 5,Loss Function http://luowei828.blog.163.com/blog/static/310312042013101401524824/ 4,中英文: 感知器:perceptron 线性回归:linear...

15分钟破解网站验证码

  概述 很多开发者都讨厌网站的验证码,特别是写网络爬虫的程序员,而网站之所以设置验证码,是为了防止机器人访问网站,造成不必要的损失。现在好了,随着机器学习技术的发展,机器识别验证码的问题比较好解决了。 样本采集工具 这里我们采用wordpress的Really Simple CAPTCHA生成验证码的插件,之所以选择这个插件,一个是它的安装量很大,二个是...

【机器学习】聚类分析的模型评估

  一、聚类算法中的距离   1. 单个样本之间的距离        余弦距离        在聚类分析中,一般需要对数据进行标准化,因为聚类数据会受数据量纲的影响。   在sklearn库中,可调用如下方法进行标准化: 1 from sklearn.preprocessing import StandardScaler 2 data = Standard...

sklearn-SVC实现与类参数

sklearn-SVC实现与类参数 SVC继承了父类BaseSVC SVC类主要方法: ★__init__() 主要参数: C: float参数 默认值为1.0 错误项的惩罚系数。C越大,即对分错样本的惩罚程度越大,因此在训练样本中准确率越高,但是泛化能力降低,也就是对测试数据的分类准确率降低。相反,减小C的话,容许训练样本中有一些误分类错误样本,泛化能力...