聚类之k-means附代码,k-means聚类例题

聚类之k-means附代码

摘要：

importosimportsysassys#reload（sys）#sys.setdefaultencoding（'utf-8'）from sklearn。clusterimportKMeansfromsklearnimportfeature_ extractionofromsklearn。feature_ extraction.textimportTfidfTransformerfromsklearn

聚类之k-means附代码第1张

聚类之k-means附代码第2张

聚类之k-means附代码第3张

import os
import sys as sys
#reload(sys)
#sys.setdefaultencoding('utf-8')
from sklearn.cluster import KMeans
from sklearn import feature_extraction
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist
import numpy as np

def tfidf_vector(corpus_path):
    corpus_train=[]
    #利用train-corpus提取特征
    target_train=[]
    for line in open(corpus_path):
        line=line.strip().split(' ')
        if len(line)==2:
            words=line[1]
            category=line[0]
            target_train.append(category)
            corpus_train.append(words)
    print ("build train-corpus done!!")
    count_v1= CountVectorizer(max_df=0.4,min_df=0.01)
    counts_train = count_v1.fit_transform(corpus_train)

    word_dict={}
    for index,word in enumerate(count_v1.get_feature_names()):
        word_dict[index]=word

    print ("the shape of train is ")
    print (repr(counts_train.shape))
    tfidftransformer = TfidfTransformer()
    tfidf_train = tfidftransformer.fit(counts_train).transform(counts_train)
    return tfidf_train,word_dict

def best_kmeans(tfidf_matrix,word_dict):
    K = range(1, 10)
    meandistortions = []
    for k in K:
        print (k),('****'*5)
        kmeans = KMeans(n_clusters=k)
        kmeans.fit(tfidf_matrix)
        meandistortions.append(sum(np.min(cdist(tfidf_matrix.toarray(), kmeans.cluster_centers_, 'euclidean'), axis=1)) / tfidf_matrix.shape[0])
    plt.plot(K, meandistortions, 'bx-')
    plt.grid(True)
    plt.xlabel('Number of clusters')
    plt.ylabel('Average within-cluster sum of squares')
    plt.title('Elbow for Kmeans clustering')
    plt.show()

corpus_train = "corpus_train.txt"
cluster_docs = "cluster_result_document.txt"
cluster_keywords = "cluster_result_keyword.txt"
num_clusters = 7
tfidf_train,word_dict=tfidf_vector(corpus_train)
best_kmeans(tfidf_train,word_dict)
cluster_kmeans(tfidf_train,word_dict,cluster_docs,cluster_keywords,num_clusters)

免责声明：文章转载自《聚类之k-means附代码》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

聚类之k-means附代码

相关文章

聚类-31省市居民家庭消费水平-city

ros自定义消息的时候报错ImportError: No module named em

RBF神经网络

实验1：基于Weka的典型数据挖掘应用

Faiss流程与原理分析

R学习之R层次聚类方法（tm包）

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表