数据挖掘导论(完整版)

摘要:
一种分类算法KNN神经网络支持向量机适用于高维数据决策树基尼系数熵系数双聚类算法K-means基于原型,分类类型不适用于大密度差,基于密度三相关法的大形状差DBSCAN先验剪枝支持置信度FR增长四种组合方法装袋原理:放回采样,63%随机森林增强原理:迭代,修改权重五数据预处理缺失值重复值异常值异常值特征提取(降维)PCA特征选择

一 分类算法

KNN

神经网络

支持向量机

适用于高维数据

决策树

gini系数

熵系数

二 聚类算法

K-均值

基于原型,划分类型

不适用密度差别大,形状差异大

DBSCAN

基于密度

三 关联方法

apriori

剪枝

支持度

置信度

FR-growth

四 组合方法

bagging

原理:有放回抽样,63%

random forest

boosting

原理:迭代,修改权重

五 数据预处理

缺失值

重复值

异常值 -- 离群点

特征提取(维归约) -- PCA

特征选择

离散化&二元化 -- 某些分类算法的要求

变量变换

标准化 -- 某些算法的要求,KNN

简单函数变化(log)

四 变量特征

连续/离散

定量/定性

nominal 标称、ordinal 序数、internal 区间 、 ratio 比率

免责声明:文章转载自《数据挖掘导论(完整版)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇用XPath定位Web页面元素时,如何快速验证XPath语句是否正确?VMware备份研究下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Pytorch:transforms二十二种数据预处理方法及自定义transforms方法

数据增强 transforms是pytorch中用于数据增强的模块,首先再简单描述下数据增强的概念: 数据增强又称为数据增广,数据扩增,它是对训练集进行变换,使训练集更丰富,从而让模型根据泛化能力 举个非常生动形象的例子,五年高考三年模拟相信大家都知道,其实这就是一个学习模型,其中的三年模拟试题就是数据增强 具体的各类方法 裁剪 crop transfo...

IOS 数据存储之 FMDB 详解

http://www.cnblogs.com/jerehedu/p/4623955.html FMDB是用于进行数据存储的第三方的框架,它与SQLite与Core Data相比较,存在很多优势。 FMDB是面向对象的,它以OC的方式封装了SQLite的C语言API,使用起来更加的方便,不需要过多的关心数据库操作的知识。但是它本身也存在一些问题,比如跨平台,...

Access数据库的常用数据类型和alter的用法

一、Access比较常用的数据类型:文本、备注、数字、日期/时间、货币   意思          Sql                    Access                 1)文本      nvarchar(30)        test 2)备注      ntext                     demo 3)数字   ...

POST提交数据方式

application/x-www-form-urlencoded 这应该是最常见的 POST 提交数据的方式了。浏览器的原生 form 表单,如果不设置 enctype 属性,那么最终就会以 application/x-www-form-urlencoded 方式提交数据。 当直接提交form表单时,默认就使用此种方式。 multipart/form-d...

Oracle 快照及 dblink使用 (两台服务器数据同步)

/*一、创建dblink:*/ --1、在目的数据库上,创建dblin drop database link dblink_anson; Create public database link dblink_anson Connect to lg identified by lg using 'SDLGDB'; --源数据库的用户名、密码、服务器名k...

C# 使用 SqlBulkCopy 类批量复制数据到数据库

最近公司需要优化导入的问题,由于之前使用的方式是生成 Insert 语句插入数据库,数据量小的时候还行,但是随着发展数据量渐渐大了,之前的方法性能就跟不上了,于是发现了 SqlBulkCopy 这个类。 使用 SqlBulkCopy 类只能向 SQL Server 表写入数据。但是,数据源不限于 SQL Server;可以使用任何数据源,只要数据可加载到...