R学习之R层次聚类方法（tm包）r语言层次聚类分析

R学习之R层次聚类方法（tm包）

摘要：

主要类型的方法有：jaccard:jaccard系数，也称为jaccard相似系数，用于比较样本集中相似性和分散性的概率。Jaccard=样本集交集数/样本集聚合数；匹配：简单匹配系数，SMC此度量对发生和未发生的事件进行同等计数。

1、距离计算

##  method for class 'TermDocumentMatrix'
dissimilarity(x, y = NULL, method)


##  method for class 'PlainTextDocument'
dissimilarity(x, y = NULL, method)

参数说明：

x：文档-词矩阵或者文本文档；

y：文本文档，仅当x是文本文档时y才是文本文档；

method：距离计算方法，所有的method均来自于proxy包，proxy包的文档在这里。

method的种类主要有：

（1）jaccard：jaccard系数（默认方法），又叫做Jaccard相似性系数，用来比较样本集中的相似性和分散性的一个概率。

Jaccard = 样本集交集个数 / 样本集合集个数；

（2）Matching：Simple Matching Coefficient，SMC（简单匹配系数）。该度量同等地对出现和不出现计数。

如下图所示.其中,q 表示向量中对应位置都为 1 的元素个数;t 表示向量中对应位置都为 0 的元素个数;s 表示向量 i 某
个位置为 1,而在向量 j 的对应位置为 0 的元素个数;r 表示在向量 i 某个位置为 0,而在向量 j 的对应位置为 1 的
元素个数.来自（http://www.jos.org.cn/1000-9825/17/79.pdf）

R学习之R层次聚类方法（tm包）第1张

（3）dice：Dice's coefficient 类似于jaccard系数，但是在分子上加权，Dice系数S为

R学习之R层次聚类方法（tm包）第2张

（4）affinity：

Affinity between the two items i and j is defined by Aggarwal et al. (2002) as

A(i,j) = sup({i,j})/(sup({i}) + sup({j}) - sup({i,j})),

where sup(.) is the support measure. This means that affinity is the Jaccard similarity between items.

（暂时还没搞明白）

（5） cosine：余弦相似度，计算两个向量间的余弦夹角

（6）pearson： pearson Correlation Coefficient皮尔逊相关系数，见：http://zh.wikipedia.org/zh-cn/%E7%9B%B8%E5%85%B3

例子：

data("crude")
tdm <- TermDocumentMatrix(crude)
dissimilarity(tdm, method = "cosine") #计算距离的方法为cosine(余弦夹角)方法
dissimilarity(crude[[1]], crude[[2]], method = "eJaccard") #dJaccard方法

2、层次聚类

hclust(d, method = "complete", members=NULL)

参数说明：

d：聚类的矩阵

method：聚类的方法

（1）ward：方法简述：基于方差分析思想，如果分类合理，则同类样品间离差平方和应当较小，类与类间离差平方和应当较大。

特点：实际应用中分类效果较好，应用较广；要求样品间的距离必须是欧氏距离。

（2）single：最短距离法，计算两类观测间最近一对的距离；

（3）complete：最长距离法，计算两类观测间最远一对的距离；

（4）average：平均距离法，测量两类每对观测间的平均距离；

（5）mcquitty：McQuitty相似分析法，（待补充）

（6）median：中间距离法，

（7）centroid：重心法，两类间的距离定义为两类重心之间的距离，对样品分类而言，每一类中心就是属于该类样品的均值。

特点：该距离随聚类地进行不断缩小。该法的谱系树状图很难跟踪，且符号改变频繁，计算较烦。

上述部分内容来自于：http://blog.csdn.net/yillc/article/details/6746509

3、图形展示

plot(x, labels = NULL, hang = 0.1,
     axes = TRUE, frame.plot = FALSE, ann = TRUE,
     main = "Cluster Dendrogram",
     sub = NULL, xlab = NULL, ylab = "Height", ...)

plclust(tree, hang = 0.1, unit = FALSE, level = FALSE, hmin = 0,
        square = TRUE, labels = NULL, plot. = TRUE,
        axes = TRUE, frame.plot = FALSE, ann = TRUE,
        main = "", sub = NULL, xlab = NULL, ylab = "Height")

免责声明：文章转载自《R学习之R层次聚类方法（tm包）》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

R学习之R层次聚类方法（tm包）

相关文章

RBF神经网络

聚类算法

R数据挖掘第一篇：聚类分析（划分）

聚类之k-means附代码

聚类-31省市居民家庭消费水平-city

利用opencv3中的kmeans实现抠图功能

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

R学习之R层次聚类方法（tm包）

相关文章

RBF神经网络

聚类算法

R数据挖掘 第一篇：聚类分析（划分）

聚类之k-means附代码

聚类-31省市居民家庭消费水平-city

利用opencv3中的kmeans实现抠图功能

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

R数据挖掘第一篇：聚类分析（划分）