分类变量

机器学习与R语言

此书网上有英文电子版:Machine Learning with R - Second Edition [eBook].pdf(附带源码) 评价本书:入门级的好书,介绍了多种机器学习方法,全部用R相关的包实现,案例十分详实,理论与实例结合。 目录 第一章 机器学习简介 第二章 数据的管理和理解 第三章 懒惰学习--使用近邻分类 第四章 概率学习--朴素贝...

R实战 第十篇:列联表和频数表

列联表是观测数据按两个或更多属性(定性变量)分类时所列出的频数分布表,它是由两个以上的变量进行交叉分类的频数分布表。交互分类的目的是将两变量分组,然后比较各组的分布状况,以寻找变量间的关系。 按两个变量交叉分类的,该列联表称为两维列联表;若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。一维列联表就是频数分布表。频数就是各个分组中属性出现的次数。...

数据挖掘导论(完整版)

一 分类算法 KNN 神经网络 支持向量机 适用于高维数据 决策树 gini系数 熵系数 二 聚类算法 K-均值 基于原型,划分类型 不适用密度差别大,形状差异大 DBSCAN 基于密度 三 关联方法 apriori 剪枝 支持度 置信度 FR-growth 四 组合方法 bagging 原理:有放回抽样,63% random forest boostin...

分类结果评价指标——Kappa系数

kappa系数是用来衡量两个变量一致性的指标,如果将两个变量换为分类结果和验证样本,就可以用来评价分类精度了。计算公式如下: kappa=(Po-Pe)/(1-Pe) 其中,Po是总体精度,Pe是偶然一致性误差 即使是两个完全独立的变量,一致性也不会为0,仍存在偶然现象,使两个变量存在一致的情况,所以仍要提取偶然一致性。计算过程如下图:...

SPSS聚类与判别

实验目的   学会使用SPSS简单操作,掌握聚类与判别。 实验要求   使用SPSS。 实验内容  实验步骤   (1)层次聚类法分析实例——为了反映中国各地区生活水平差异性,本报告对2002年中国部分省市的国民经济数据进行聚类分析,依次了解我国各省市的生活差异水平,详见“lx17.sav文件”。SPSS操作,点击【分析】→【分类】→【系统聚类】,在打开...