聚类-31省市居民家庭消费水平-city

摘要:
===有三种类型=========有四种类型=========1===直接写入文件名,则txt文件应与py文件位于同一路径========importnumbyasnpfromsklearn。clusterimportKMeansdefinedData(文件路径):fr=打开(文件路径,'r+')行=fr.readlines()

===分三类的=====

聚类-31省市居民家庭消费水平-city第1张

======分四类的========

聚类-31省市居民家庭消费水平-city第2张

直接写文件名,那么你的那个txt文件应该是和py文件在同一个路径的

============code===========

import numpy as np
from sklearn.cluster import KMeans
def loadData(filePath):
fr = open(filePath,'r+')
lines = fr.readlines()
retData = []
retCityName = []
for line in lines:
items = line.strip().split(",")
retCityName.append(items[0])
retData.append([float(items[i]) for i in range(1,len(items))])
for i in range(1,len(items)):
return retData,retCityName
if __name__ == '__main__':
data,cityName=loadData('city.txt')
km = KMeans(n_clusters=3)
label = km.fit_predict(data)
expenses = np.sum(km.cluster_centers_,axis=1)
#print(expense)
CityCluster =[[],[],[]]
for i in range(len(cityName)):
CityCluster[label[i]].append(cityName[i])
for i in range(len(CityCluster)):
print("Expenses:%.2f"%expenses[i])
print(CityCluster[i])
=========

  1. importnumpyasnp
  2. fromsklearn.clusterimportKMeans
  3. defloadData(filePath):
  4. fr=open(filePath,'r+')
  5. lines=fr.readlines()
  6. retData=[]
  7. retCityName=[]
  8. forlineinlines:
  9. items=line.strip().split(",")
  10. retCityName.append(items[0])
  11. retData.append([float(items[i])foriinrange(1,len(items))])
  12. returnretData,retCityName
  13. if__name__=='__main__':
  14. data,cityName=loadData('city.txt')
  15. km=KMeans(n_clusters=4)
  16. label=km.fit_predict(data)
  17. expenses=np.sum(km.cluster_centers_,axis=1)
  18. #print(expenses)
  19. CityCluster=[[],[],[],[]]
  20. foriinrange(len(cityName)):
  21. CityCluster[label[i]].append(cityName[i])
  22. foriinrange(len(CityCluster)):
  23. print("Expenses:%.2f"%expenses[i])
  24. print(CityCluster[i])

免责声明:文章转载自《聚类-31省市居民家庭消费水平-city》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇AndroidManifest.xml文件详解(uses-feature)如何找出你性能最差的SQL Server查询下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

常见的聚类算法

常见的聚类算法 1. K-Means(K均值)聚类 算法步骤: (1) 首先我们选择一些类/组,并随机初始化它们各自的中心点。中心点是与每个数据点向量长度相同的位置。这需要我们提前预知类的数量(即中心点的数量)。 (2) 计算每个数据点到中心点的距离,数据点距离哪个中心点最近就划分到哪一类中。 (3) 计算每一类中中心点作为新的中心点。 (4) 重复以上步...

VLAD / NetVLAD / GhostVLAD

部分参考:场景识别之NetVLAD论文笔记:NetVLAD: CNN architecture for weakly supervised place recognition论文阅读笔记-《GhostVLAD for set-based face recognition》论文阅读-人脸识别:GhostVLAD 三者简单对比如下: 1.VLAD:局部聚合描...

常用数据清洗方法大盘点

本文来自网易云社区 数据清洗是将重复、多余的数据筛选清除,将缺失的数据补充完整,将错误的数据纠正或者删除,最后整理成为我们可以进一步加工、使用的数据。 所谓的数据清洗,也就是ETL处理,包含抽取Extract、转换Transform、加载load这三大法宝。在大数据挖掘过程中,面对的至少是G级别的数据量,包括用户基本数据、行为数据、交易数据、资金流数据以...

聚类算法

一、聚类算法简介 聚类是无监督学习的典型算法,不需要标记结果。试图探索和发现一定的模式,用于发现共同的群体,按照内在相似性将数据划分为多个类别使得内内相似性大,内间相似性小。有时候作为监督学习中稀疏特征的预处理(类似于降维,变成K类后,假设有6类,则每一行都可以表示为类似于000100、010000)。有时候可以作为异常值检测(反欺诈中有用)。 应用场景:...

Canopy聚类算法

一、概念     与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。这种Can...

使用HDBSCAN 算法对分子聚类

对分子进行聚类分析,首先必须要考虑的是其描述符的问题,分子描述符通常是非常高维的,必须对其进行降维才好继续后面的分析,特别分子量特别大的时候。常用的降维手段有PCA,TSNE和UMAP.一说,TSNE用于可视化. 聚类的方法有许多,比如k-means,层次聚类. 但是这两个一个需要定义k,一个需要定义阈值,这样需要试错法合理进行着两个量的设置,不是很方便....