机器学习总结-谱聚类

摘要:
光谱聚类光谱聚类通常是一种基于图论的聚类方法,它通过样本矩阵的拉普拉斯矩阵的特征向量进行聚类。光谱聚类的思想是将一个图分成若干个子图,这需要同一个子图的高点相似性和不同子图的低点相似性。可以选择如下:1。图形边缘权重的平均值。光谱聚类相当于在聚类之前降低原始数据的维数。以上是光谱聚类的MinimumCut方法,RatioCut方法控制子图的顶点数量,使其尽可能平均,而Ncut方法控制了子图的权重分布。

谱聚类

谱聚类概括的说是基于图论的聚类方法,通过样本矩阵的拉普拉斯矩阵的特征向量进行聚类。
谱聚类的想法是将图划分成若干子图,要求同一个子图的点相似度高,不同子图的点相似度低。
顺便复习一下相似度(距离)的度量公式:

  • 闵可夫斯基距离MinKowski(欧氏距离):(dist(X,Y)=left ( sum_{i=1}^{n}left | x_{i}-y_{i} ight |^p ight )^frac{1}{p})

  • 杰卡德相似系数Jaccard:(J(A,B)=frac{|Acap B|}{|Acup B|})

  • 余弦相似度:(cos( heta)=frac{a^Tb}{||a||cdot||b||})

  • 皮尔逊相似系数Pearson:( ho _{XY}=frac{cov(X,Y)}{sigma _{X} sigma _{Y}}=frac{E[(X-mu _{X})(Y-mu _{Y})]}{sigma _{X} sigma _{Y}})

  • 相对熵:(D(p||q)=sum_{x}{}p(x)logfrac{p(x)}{q(x)}=E_{p(x)}logfrac{p(x)}{q(x)})

相似度图的(G)的建立方法:

  • 全连接图:使用高斯相似度函数:(s(x_{i},x_{j})=e^{-frac{||x_{i}-x_{j}||}{2sigma^2}})
  • (varepsilon)近邻图:只留下(varepsilon)范围内的边连接。(varepsilon)值得选择可以采用:1、图(G)边权值的均值。2、图(G)的最小生成树的最大边。
  • k近邻图和相互k近邻图

损失函数

[Cut(G_{1},G_{2})=sum_{iin G_{1},jin G_{2}}w_{ij} (w是图的邻接矩阵) ]

如果用(cl_{i})来表示点(i)被划分到的子图,即(cl_{i}=left{egin{matrix} c_{1},iin G_{1}\ c_{2},iin G_{2} end{matrix} ight.)。那么(Cut(G_{1},G_{2}))可以写成: $$Cut(G_{1},G_{2})=sum_{iin G_{1},jin G_{2}}w_{ij}=frac{sum_{i=1}{n}sum_{j=1}{n}w_{ij}(cl_{i}-cl_{j}){2}}{2(c_{1}-c_{2})2} $$
(sum_{i=1}^{n}sum_{j=1}^{n}w_{ij}(cl_{i}-cl_{j})^{2})进行整理:$$sum_{i=1}{n}sum_{j=1}{n}w_{ij}(cl_{i}-cl_{j}){2}=sum_{i=1}{n}sum_{j=1}{n}w_{ij}(cl_{i}2+cl_{j}^2-2cl_{i}cl_{j})$$

[=sum_{i=1}^{n}sum_{j=1}^{n}w_{ij}(cl_{i}^2+cl_{j}^2)-2sum_{i=1}^{n}sum_{j=1}^{n}w_{ij}cl_{i}cl_{j} ]

[=sum_{i=1}^{n}2cl_{i}^2sum_{j=1}^{n}w_{ij}-2sum_{i=1}^{n}sum_{j=1}^{n}w_{ij}cl_{i}cl_{j} ]

[=2cl^T(D-W)cl ]

其中(D)被叫做度矩阵,它是一个对角矩阵,(D_{ii}=sum_{j=1}^{n}w_{ij})(W)是邻接矩阵,令(L=D-W),称(L)为拉普拉斯矩阵。
(Cut(G_{1},G_{2}))的最小值,由于 (2(c_{1}-c_{2})^2)是常数,只需求(min(cl^TLcl))
(R(cl,L)=frac{cl^TLcl}{cl^Tcl})是瑞利商(Rayleigh quotient),根据Rayleigh商的性质:(R(cl,L))最小值,次最小值,...,最大值分别在(cl)(L)的最小特征值,次最小特征值,...,最大特征值对应的特征向量时取得。
于是对于(k)聚类,将(L)最小(k)个特征值对应的特征向量组成(n imes k)的矩阵(V_{k}),然后对(V_{k})的行向量进行聚类。
谱聚类相当于先对原数据降维,再进行聚类。
以上是谱聚类的Minimum Cut方法,还有Ratio Cut方法控制子图的顶点数尽量平均,Ncut方法控制子图的权重分布。

参考资料:
对目标函数的求解过程:https://wenku.baidu.com/view/36f06d78a32d7375a5178025.html
http://www.cnblogs.com/sparkwen/p/3155850.html

免责声明:文章转载自《机器学习总结-谱聚类》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Gradle 实战(1)—— 配置环境变量R语言逻辑回归和泊松回归模型对发生交通事故概率建模下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Transformer架构记录(三)

Transformer架构记录(二)中提到,整个Encoder-block的结构如下图所示: 本文聚焦上图中的Multi-Head Attention模块,即下图所示: 1. self-Attention self-Attention是理解Multi-Head Attention模块的基础,因此需要理解自注意力机制在Transformer中的具体原理。...

矩阵求逆

LuoguP4783 思路: 求A的逆矩阵,把A和单位矩阵I放在一个矩阵里 对A进行加减消元使A化成单位矩阵 此时原来单位矩阵转化成逆矩阵 原理大概就是 A(逆) * [A I] = [I A(逆)] Code: 1 #include <bits/stdc++.h> 2 #define ll long long 3 using namespa...

Java AES加密解密工具 -- GUI 、在线传输文件

原理 对于任意长度的明文,AES首先对其进行分组,每组的长度为128位。分组之后将分别对每个128位的明文分组进行加密。 对于每个128位长度的明文分组的加密过程如下: (1)将128位AES明文分组放入状态矩阵中。 (2)AddRoundKey变换:对状态矩阵进行AddRoundKey变换,与膨胀后的密钥进行异或操作(密钥膨胀将在实验原理七中详细讨论)。...

R学习之R层次聚类方法(tm包)

1、距离计算  ## method for class 'TermDocumentMatrix' dissimilarity(x, y = NULL, method) ## method for class 'PlainTextDocument' dissimilarity(x, y = NULL, method) 参数说明:    x:文档-词矩阵或...

第一篇:CUDA 6.0 安装及配置( WIN7 64位 / 英伟达G卡 / VS2010 )

前言        本文讲解如何在VS 2010开发平台中搭建CUDA开发环境。        当前配置:               系统:WIN7 64位               开发平台:VS 2010               显卡:英伟达G卡               CUDA版本:6.0        若配置不同,请谨慎参考本文。 第一...

MATLAB绘图

Matlab绘图 强大的绘图功能是Matlab的特点之一,Matlab提供了一系列的绘图函数,用户不需要过多的考虑绘图的细节,只需要给出一些基本参数就能得到所需图形,这类函数称为高层绘图函数。此外,Matlab还提供了直接对图形句柄进行操作的低层绘图操作。这类操作将图形的每个图形元素(如坐标轴、曲线、文字等)看做一个独立的对象,系统给每个对象分配一个句柄,...