无监督学习

聚类算法

一、聚类算法简介聚类是无监督学习的典型算法，不需要标记结果。试图探索和发现一定的模式，用于发现共同的群体，按照内在相似性将数据划分为多个类别使得内内相似性大，内间相似性小。有时候作为监督学习中稀疏特征的预处理（类似于降维，变成K类后，假设有6类，则每一行都可以表示为类似于000100、010000）。有时候可以作为异常值检测（反欺诈中有用）。应用场景：...

使用GAN进行异常检测——可以进行网络流量的自学习哇，哥哥，人家是半监督，无监督的话，还是要VAE，SAE。

实验了效果，下面的还是图像的异常检测居多。 https://github.com/LeeDoYup/AnoGAN https://github.com/tkwoo/anogan-keras 看了下，本质上是半监督学习，一开始是有分类模型的。代码如下，生产模型和判别模型： ### generator model define def generator_m...

聚类分析一、K-Means

前言人们常说“物以类聚，人以群分”，在生物学中也对生物从界门纲目科属种中进行了划分。在统计学中，也有聚类分析法，通过把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，从而让同一个子集中的成员都有相似的一些属性，然后对这些子集中的数据进行分析，其关键则在于聚类。这系列文章将来讲讲各种聚类方法，这篇开篇文章将介绍下聚类的相关概念以及最基本的算法 K...

R数据挖掘第一篇：聚类分析（划分）

聚类是把一个数据集划分成多个子集的过程，每一个子集称作一个簇（Cluster），聚类使得簇内的对象具有很高的相似性，但与其他簇中的对象很不相似，由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上，不同的聚类算法可能产生不同的聚类。聚类分析用于洞察数据的分布，观察每个簇的特征，进一步分析特定簇的特征。由于簇是数据对象的子集合，簇内的对象彼此相似，而与其...