SPSS聚类与判别

摘要:
目的了解如何使用SPSS进行简单操作,掌握聚类和判别。ANOVA平方和自由度平均平方F显著性组间人均GDP 1255616794.2614313904198.56528.659.000组间2847777747.7522610952990.298组间人口组间总15403954542.01330组间160221068.3124405526777821.060000组间49451014.962261901962.114组间总2096720832.7430城镇家庭人均年消费支出组49166873.689412291718.4223.651.000组内13512763.99726521.692总计62679637.68630农村地区组间人均家庭生活消费支出14449596.77643612399.19416.422.00组内5719138.55826219966.868总计20168735.33530每个地区的消费价格指数-100组间30.96447.7417.360.000组内27.346261.052总计58.31030代码:1 NEWAYGDPPopulationCity_ ConsumerRural_ ConsumerPindex_ revieweBYCLU5_ 32/MISSINGANALYSIS。03从以上两个表可以看出,每个类别的五个变量之间存在显著差异,这些差异在统计学上是显著的。

实验目的

  学会使用SPSS简单操作,掌握聚类与判别。

实验要求

  使用SPSS。

实验内容

SPSS聚类与判别第1张

 实验步骤

  (1)层次聚类法分析实例——为了反映中国各地区生活水平差异性,本报告对2002年中国部分省市的国民经济数据进行聚类分析,依次了解我国各省市的生活差异水平,详见“lx17.sav文件”。SPSS操作,点击【分析】→【分类】→【系统聚类】,在打开的【系统聚类分析】对话框中,把GDP、Pindex_Revise5个变量选入【变量】中,把省份选入【个案标注依据】,点击【图】,勾选【谱系图】,“冰柱图块”勾选【无】→【继续】。点击【方法】,下拉列表,选择【瓦尔德法】,“转换值块”勾选【Z得分】→【继续】。点击【保存】→【解的范围】,3~8→【继续】。单击【确定】。

SPSS聚类与判别第2张

SPSS聚类与判别第3张

SPSS聚类与判别第4张

SPSS聚类与判别第5张

   运行分析,

集中计划

阶段

组合聚类

系数

首次出现聚类的阶段

下一个阶段

聚类 1

聚类 2

聚类 1

聚类 2

1

3

17

.111

0

0

2

2

3

12

.246

1

0

15

3

5

7

.407

0

0

4

4

5

8

.624

3

0

13

5

20

27

.857

0

0

11

6

29

30

1.121

0

0

20

7

28

31

1.390

0

0

20

8

4

14

1.666

0

0

10

9

15

23

2.102

0

0

14

10

4

25

2.751

8

0

21

11

20

24

3.419

5

0

12

12

20

22

4.167

11

0

19

13

5

6

5.010

4

0

19

14

15

16

6.127

9

0

23

15

3

18

7.428

2

0

18

16

21

26

8.813

0

0

21

17

11

19

10.248

0

0

22

18

3

10

12.010

15

0

23

19

5

20

13.835

13

12

25

20

28

29

16.130

7

6

27

21

4

21

18.530

10

16

25

22

11

13

21.298

17

0

28

23

3

15

24.620

18

14

29

24

1

2

28.412

0

0

26

25

4

5

32.928

21

19

27

26

1

9

41.666

24

0

28

27

4

28

54.441

25

20

29

28

1

11

68.972

26

22

30

29

3

4

87.757

23

27

30

30

1

3

150.000

28

29

0

  需要判别数据应该分成多少类别时,聚类系数那一列有着很好的参考价值。

SPSS聚类与判别第6张

  (1)方案一:分成6类或者5类。

  第1类:上海;第二类:北京、天津;第3类:河北、湖北、安徽、湖南、江苏、山东、四川、河南;第4类:广西、峡西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏;第5类:浙江、广东、福建;第6类:青海、宁夏、甘肃、新疆。

  事实上,由于在分成6类时,第1个类别只有上海一个城市,所以在这种聚类方法中更倾向于将31个省市分成5类,即将第1类和第2类合并为1类。

  (2)方案二:分成3类或2类。

  第1类:上海、北京、天津、浙江、广东、福建;第2类:河北、湖北、安徽、湖南、江苏、山东、四川、河南;第3类:青海、宁夏、甘肃、新疆、广西、峡西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏。

  其中第2类和第3类可以并为1类,这时总类别数2。但是由于分成两类区分性不强。常更倾向于分成3类。

  代码:

SPSS聚类与判别第7张SPSS聚类与判别第8张
 1 DATASET DECLARE D0.6606863886229252.
 2 PROXIMITIES   GDP Population City_Consume Rural_Consume Pindex_revise
 3   /MATRIX OUT(D0.6606863886229252)
 4   /VIEW=CASE
 5   /MEASURE=SEUCLID
 6   /PRINT NONE
 7   /ID=province
 8   /STANDARDIZE=VARIABLE Z.
 9 
10 CLUSTER
11   /MATRIX IN(D0.6606863886229252)
12   /METHOD WARD
13   /ID=province
14   /PRINT SCHEDULE
15   /PLOT DENDROGRAM
16   /SAVE CLUSTER(3,8).
01

  进一步分析,【分析】→【比较平均值】→【平均值】。在【平均值】对话框中,把GDP5个变量选入【因变量列表】,把Ward Method[CLU5_3]选入【层】中。

SPSS聚类与判别第9张

报告

平均值  

Ward Method

人均GDP

人口数

城镇居民家庭平均每人全年消费性支出

农村居民家庭平均每人生活消费支出

各地区居民消费价格指数-100

1

27686.4786

1343.0000

8415.3467

3452.0620

1.4333

2

7751.2991

7468.0625

4927.4875

1704.3075

.7250

3

6286.3535

3143.6154

4694.0031

1447.7899

.3692

4

13582.3095

5437.6667

7355.7100

2895.1985

-.7333

5

5787.7307

1388.0000

4661.4250

1299.2102

3.0500

总计

9377.1057

4080.8226

5367.7681

1828.8500

.8032

  代码:

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 MEANS TABLES=GDP Population City_Consume Rural_Consume Pindex_revise BY CLU5_3
2   /CELLS=MEAN.
02

  【分析】→【比较平均值】→【单因素ANOVA检验】,在打开的对话框中,把GDP等5个变量选入【因变量列表】,把Ward Method[CLU5_3]选入【层】中。

SPSS聚类与判别第12张

ANOVA

平方和

自由度

均方

F

显著性

人均GDP

组间

1255616794.261

4

313904198.565

28.659

.000

组内

284777747.752

26

10952990.298

总计

1540394542.013

30

人口数

组间

160221068.312

4

40055267.078

21.060

.000

组内

49451014.962

26

1901962.114

总计

209672083.274

30

城镇居民家庭平均每人全年消费性支出

组间

49166873.689

4

12291718.422

23.651

.000

组内

13512763.997

26

519721.692

总计

62679637.686

30

农村居民家庭平均每人生活消费支出

组间

14449596.776

4

3612399.194

16.422

.000

组内

5719138.558

26

219966.868

总计

20168735.335

30

各地区居民消费价格指数-100

组间

30.964

4

7.741

7.360

.000

组内

27.346

26

1.052

总计

58.310

30

 

  代码:

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 ONEWAY GDP Population City_Consume Rural_Consume Pindex_revise BY CLU5_3
2   /MISSING ANALYSIS.
03

  从上述两个表看出,各个类别之间的5个变量都是有显著性差异的,且这些差异均具有统计意义。

  所以最终的特征类别描述:

  第1类:高生活水平城市,北京、上海、天津。

  第2类:人口众多,生活水平一般。北、湖北、安徽、湖南、江苏、山东、四川、河南;

  第3类:生活水平一般,人口较少。广西、峡西、贵州、重庆、内蒙古、吉林、黑龙江、辽宁、山西、江西、云南、海南、西藏;

  第4类:消费水平相对人均GDP较高,平均物价水平较低,消费价格指数都小于100。浙江、广东、福建;

  第5类:人口稀少,生活水平低,平均物价水平高。青海、宁夏、甘肃、新疆。

  K-均值聚类法(又叫快速聚类)分析示例——移动电话客户使用手机情况,数据详见mobile.sav文件。SPSS操作,先对数据进行描述性统计,【分析】→【描述统计】→【描述】,

L-在【描述】对话框中,把前6个变量选入【变量】中。点击【选项】,勾选【平均值】、【标准差】、【最大值】、【最小值】→【继续】,单击【确定】。(标准化数据:【分析】→【描述统计】→【描述】,在【描述】对话框中,把前6个变量选入【变量】中。勾选【将标准化值另存为变量】)。【分析】→【分类】→【K-均值聚类分析】,在打开的对话框中,把标准化的6个变量选入【变量】中,把客户编号选入【个案标注依据】,【聚类数】填5;点击【迭代】,【最大迭代次数】填写100→【继续】。点击【保存】,勾选【聚类成员】→【继续】。点击【选项】→【统计】,勾选【ANOVA表】→【继续】。单击【确定】。

SPSS聚类与判别第15张

描述统计

N

最小值

最大值

均值

标准 偏差

工作日上班时期电话时长

3395

5.77

2846.40

708.3469

515.25799

工作日下班时期电话时长

3395

3.20

1058.40

301.8049

195.33152

周末电话时长

3395

.66

205.00

54.1649

35.26109

国际电话时长

3395

.01

1014.82

172.3492

146.68342

总通话时长

3395

54.81

3423.30

1064.3168

560.80133

平均每次通话时长

3395

.63

53.58

4.1267

3.80400

有效个案数(成列)

3395

 

  代码:

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 DESCRIPTIVES VARIABLES=Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins
2     average_mins
3   /STATISTICS=MEAN STDDEV MIN MAX.
04

  从表中可见,尽管数据的量纲是一样的,但是数据的取值却仍然有很大差别,平均数据从最小的4.1267到最大的1046.3168等。为了消除这种差异,需要事先对数据标准化。

SPSS聚类与判别第18张

   代码:

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 DESCRIPTIVES VARIABLES=Peak_mins OffPeak_mins Weekend_mins International_mins Total_mins
2     average_mins
3   /SAVE
4   /STATISTICS=MEAN STDDEV MIN MAX.
05

SPSS聚类与判别第21张SPSS聚类与判别第22张SPSS聚类与判别第23张

初始聚类中心

聚类

1

2

3

4

5

Zscore:  工作日上班时期电话时长

3.21791

-1.16165

2.64849

.19729

1.93001

Zscore:  工作日下班时期电话时长

-.65276

-1.26557

-1.03058

3.87339

-.17204

Zscore:  周末电话时长

3.72181

3.11491

-.02169

-.90652

-1.21281

Zscore:  国际电话时长

4.90995

-1.16636

.29390

2.77257

.53252

Zscore:  总通话时长

2.96323

-1.31226

2.07308

1.47340

1.63709

Zscore:  平均每次通话时长

-.51651

.30760

5.49282

-.22792

12.99993

  它列出每一类别初始定义的中心点,实际上就是数据集中的某一条记录,其选择的原则是使得各初始类中心的散点在所有变量构成的空间中离的尽可能远,而且能尽量广地分布在空间中。

迭代历史记录a

迭代

聚类中心中的变动

1

2

3

4

5

1

3.894

3.450

3.201

3.605

3.458

2

.829

.207

.725

.312

1.943

3

.374

.127

.457

.262

.964

4

.208

.100

.330

.206

.504

5

.156

.060

.219

.141

.421

6

.116

.047

.168

.116

.337

7

.104

.041

.164

.105

.134

8

.110

.035

.140

.111

.188

9

.077

.028

.105

.101

.081

10

.069

.022

.117

.082

.057

11

.054

.020

.148

.079

.000

12

.028

.030

.198

.054

.063

13

.063

.055

.309

.044

.119

14

.105

.077

.363

.058

.263

15

.126

.074

.276

.068

.193

16

.118

.029

.140

.048

.152

17

.072

.016

.108

.049

.172

18

.046

.008

.080

.053

.087

19

.037

.011

.076

.050

.083

20

.034

.010

.055

.036

.113

21

.020

.009

.051

.036

.113

22

.017

.008

.028

.016

.115

23

.026

.006

.026

.014

.000

24

.010

.004

.032

.023

.000

25

.010

.004

.020

.015

.000

26

.009

.004

.013

.009

.053

27

.006

.002

.006

.007

.000

28

.000

.004

.004

.009

.000

29

.000

.003

.006

.006

.000

30

.000

.000

.010

.010

.000

31

.005

.002

.011

.009

.000

32

.008

.001

.007

.005

.000

33

.004

.000

.002

.001

.000

34

.007

.000

.004

.000

.000

35

.000

.000

.000

.000

.000

a. 由于聚类中心中不存在变动或者仅有小幅变动,因此实现了收敛。任何中心的最大绝对坐标变动为 .000。当前迭代为 35。初始中心之间的最小距离为 7.609

  从上表可以看出,每一次迭代过程中类别中心的变化。类别中心点变化越来越小,知道趋近与0。整个迭代过程在第35步终止,因为此时已经满足了上面提到的迭代终止的第2个标准,所以可以认为各类别中心已经收敛了。

最终聚类中心

聚类

1

2

3

4

5

Zscore:  工作日上班时期电话时长

1.60559

-.78990

.61342

-.33584

.37303

Zscore:  工作日下班时期电话时长

.46081

-.58917

-.49365

1.18873

-.29014

Zscore:  周末电话时长

-.14005

-.15010

.35845

-.02375

-.40407

Zscore:  国际电话时长

1.68250

-.64550

.04673

.02351

-.04415

Zscore:  总通话时长

1.62690

-.94040

.41420

.10398

.21627

Zscore:  平均每次通话时长

-.06590

-.14835

-.05337

-.14059

4.87718

  Means生成的另一个比较重要的结果是最终的类别中心点,也就是各个类别在各个变量上的平均值。

ANOVA

聚类

误差

F

显著性

均方

自由度

均方

自由度

Zscore:  工作日上班时期电话时长

582.315

4

.314

3390

1854.022

.000

Zscore:  工作日下班时期电话时长

468.001

4

.449

3390

1042.395

.000

Zscore:  周末电话时长

39.060

4

.955

3390

40.896

.000

Zscore:  国际电话时长

443.179

4

.478

3390

926.658

.000

Zscore:  总通话时长

605.770

4

.286

3390

2115.071

.000

Zscore:  平均每次通话时长

463.823

4

.454

3390

1021.872

.000

由于已选择聚类以使不同聚类中个案之间的差异最大化,因此 F 检验只应该用于描述目的。实测显著性水平并未因此进行修正,所以无法解释为针对聚类平均值相等这一假设的检验。

  得出结论,各个变量对聚类结果的重要程度排序为:总通话时长>工作日上班电话时长>工作日下班时期电话时长>平均每次通话时长>国际电话时长>周末电话时长。

每个聚类中的个案数目

聚类

1

443.000

2

1239.000

3

831.000

4

806.000

5

76.000

有效

3395.000

缺失

.000

  可见人数最多的是第2类,而最少的是第5类,第1类人群也较少,各类人数的高低有时可以为最终类别特性的确定起都辅助作用。

  最终类别特征描述:

  第1类:高端商用客户,总通话时间长,工作日上班通话比例高用户,443人。

  第2类:少使用低端客户,总通话时间短,各个时段通话时间都短,1239人。

  第3类:中端商用客户,总通话时间居中,工作日上班通话比例高用户,831人。

  第4类:中端日常用客户,总通话时间居中,工作日下班通话比例高用户,806人。

  第5类:长聊客户,每次通话时间长客户,76人。

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 QUICK CLUSTER ZPeak_mins ZOffPeak_mins ZWeekend_mins ZInternational_mins ZTotal_mins Zaverage_mins
2   /MISSING=LISTWISE
3   /CRITERIA=CLUSTER(5) MXITER(100) CONVERGE(0)
4   /METHOD=KMEANS(NOUPDATE)
5   /SAVE CLUSTER
6   /PRINT ID(Customer_ID) INITIAL ANOVA.
07

  两步聚类法实例分析——例子是患有某种疾病的患者的病例数据,详细见drug.sav数据文件。SPSS操作,【分析】→【分类】→【二阶聚类】,把Sex,BP,Cholesterol选入【分类变量】中,把Age,Na,K选入【连续变量】中。点击【输出】,勾选【透视表】和【创建聚类成员变量】→【继续】。单击【确定】。

SPSS聚类与判别第26张

SPSS聚类与判别第27张

 运行示例,

自动聚类

聚类数目

施瓦兹贝叶斯准则 (BIC)

BIC 变化量a

BIC 变化比率b

距离测量比率c

1

3579.426

2

2941.099

-638.327

1.000

1.835

3

2621.569

-319.530

.501

1.202

4

2366.305

-255.264

.400

1.715

5

2243.387

-122.918

.193

1.016

6

2123.381

-120.006

.188

1.046

7

2011.454

-111.926

.175

1.265

8

1935.996

-75.458

.118

1.139

9

1877.369

-58.627

.092

1.062

10

1825.830

-51.539

.081

1.100

11

1784.648

-41.181

.065

1.293

12

1766.882

-17.767

.028

2.591

13

1798.181

31.299

-.049

1.099

14

1832.250

34.070

-.053

1.037

15

1867.309

35.059

-.055

1.035

a. 变化量基于表中的先前聚类数目。

b. 变化比率相对于双聚类解的变化。

c. 距离测量比率基于当前聚类数目而不是先前聚类数目。

  (1)确认最佳聚类类别数时最重要的指标是BIC值,即Bayes信息准则,其数值越小代表效果越好,而其右侧的BIC Change列则反映相邻两种结果的BIC之差,可见BIC值以12类时最小,但在8类后,BIC下降不太明显。综合观察,可以认为4~8类都是可供考虑的选择范围。

  (2)除BIC值外,两步聚类法还会利用相邻的两步的最小间距离比来进一步确认最佳的类别数。最小间距离比共有3个高峰,分别对应了2类、4类和12类的情形。以12类时为例,其数值为2.655,意思是和聚为13类时的最小类间距相比,12类时的最小间距离是它的2.655倍。由于第2步是采用的是层次聚类法,这些结果是嵌套的关系,因此,这就意味着在原来12类的基础上再拆分出的两个新类相比之下其实差别很小,空拍意义不大。显然,该指标越大,表示当前结果越好。结合前面的BIC大小,可以认定对于本利而言,4类或者12类时统计上认为最佳的类别数。

聚类分布

个案数

占组合的百分比

占总计的百分比

聚类

1

134

26.8%

26.8%

2

136

27.2%

27.2%

3

98

19.6%

19.6%

4

132

26.4%

26.4%

组合

500

100.0%

100.0%

总计

500

100.0%

  确定聚为4类后,可以看出每个类别包含记录数目大体相差不大。

质心

年龄

钠含量

钾含量

平均值

标准 偏差

平均值

标准 偏差

平均值

标准 偏差

聚类

1

42.72

17.102

.7319

.11601

.0483

.01801

2

45.57

17.505

.6919

.11797

.0507

.01639

3

44.54

18.345

.7244

.11215

.0500

.01756

4

44.08

16.186

.6872

.11396

.0501

.01740

组合

44.21

17.210

.7078

.11661

.0498

.01730

  可见对于钠含量而言,第3类的均数最高,而第4类中钠含量的均数最低。

  代码

SPSS聚类与判别第7张SPSS聚类与判别第8张
 1 TWOSTEP CLUSTER
 2   /CATEGORICAL VARIABLES=血压 胆固醇 性别
 3   /CONTINUOUS VARIABLES=年龄 钠含量 钾含量
 4   /DISTANCE LIKELIHOOD
 5   /NUMCLUSTERS AUTO 15 BIC
 6   /HANDLENOISE 0
 7   /MEMALLOCATE 64
 8   /CRITERIA INITHRESHOLD(0) MXBRANCH(8) MXLEVEL(3)
 9   /VIEWMODEL DISPLAY=YES
10   /PRINT IC COUNT SUMMARY
11   /SAVE VARIABLE=TSC_5167.
08

SPSS聚类与判别第30张

  数据作图,【图性】→【旧对话框】→【误差条形图】→【简单】→【个案组摘要】,在打开的对话框中,把“钠含量”选入【变量】,把“二阶聚类编号”选入【类别轴】→【确定】。

SPSS聚类与判别第31张

SPSS聚类与判别第32张SPSS聚类与判别第33张

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 GRAPH
2   /ERRORBAR(CI 95)=钠含量 BY TSC_5167
09

   做图分析,SPSS操作,【图形】→【旧对话框】→【直方图】,把“二阶聚类编号”选入【变量】,把“性别”选入【列】→【确定】。

SPSS聚类与判别第36张

SPSS聚类与判别第37张

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 GRAPH
2   /HISTOGRAM=TSC_5167
3   /PANEL COLVAR=性别 COLOP=CROSS.
10

  由上所画的统计图可见钠含量的变化情况和表格基本一致,而离散变量性别而言,第3类和第4类男性和女性基本是等比例的,而第1类中只有男性,第2类中只有女性。

  最终类别描述:

  第1类:女性、胆固醇浓度高。134人,占比26.8%,血液钠含量高于平均水平。

  第2类:男性、胆固醇浓度高。136人,占比27.2%,血液钠含量低于平均水平。

  第3类:高血压、胆固醇浓度正常。此类病人数量为98人,占病人总数19.6%,全部为高血压、胆固醇浓度正常,血压无明显特征,血液钠含量高于平均水平。

  第4类:非高血压、胆固醇浓度正常。132人,占比26.4%,血液钠含量低于平均水平。

  (3)Fisher判别分析示例——鸢尾花资料,数据详见iris.sav文件。SPSS操作,【分析】

→【分类】→【判别式】,在打开的对话框中,把spno选入【分组变量】,并【定义范围】→【最大值】3→【最小值】1。把除编号外剩下的变量选入【自变量】中→【确定】。

SPSS聚类与判别第40张

 运行示例,

特征值

函数

特征值

方差百分比

累积百分比

典型相关性

1

30.419a

99.0

99.0

.984

2

.293a

1.0

100.0

.476

a. 在分析中使用了前 2 个典则判别函数。

  提取了两个判别函数且绝大部分信息在第1个判别函数上。

威尔克 Lambda

函数检验

威尔克 Lambda

卡方

自由度

显著性

1 直至 2

.025

538.950

8

.000

2

.774

37.351

3

.000

  两个判别函数各个变量的标准化系数,可用来判断两个函数分别主要受哪些变量的影响较大。

标准化典则判别函数系数

函数

1

2

花萼长

-.346

.039

花萼宽

-.525

.742

花瓣长

.846

-.386

花瓣宽

.613

.555

标准化典则判别函数系数

函数

1

2

花萼长

-.346

.039

花萼宽

-.525

.742

花瓣长

.846

-.386

花瓣宽

.613

.555

SPSS聚类与判别第41张

SPSS聚类与判别第42张

   变量名前加z表明是标准化后的数值。

结构矩阵

函数

1

2

花瓣长

.726*

.165

花萼宽

-.121

.879*

花瓣宽

.651

.718*

花萼长

.221

.340*

判别变量与标准化典则判别函数之间的汇聚组内相关性

 变量按函数内相关性的绝对大小排序。

*. 每个变量与任何判别函数之间的最大绝对相关性

  给出各组的判别函数的重心。在得知各类的重心后,只需要为每个待判个案求出判别得分,然后计算出该个案的散点离哪一个中心最近,就可以得到该个案的判别结果了。

组质心处的函数

分类

函数

1

2

刚毛鸢尾花

-7.392

.219

变色鸢尾花

1.763

-.737

佛吉尼亚鸢尾花

5.629

.518

按组平均值进行求值的未标准化典则判别函数

  代码:

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 DATASET ACTIVATE 数据集39.
2 DATASET CLOSE 数据集38.
3 DISCRIMINANT
4   /GROUPS=spno(1 3)
5   /VARIABLES=slen swid plen pwid
6   /ANALYSIS ALL
7   /PRIORS EQUAL
8   /CLASSIFY=NONMISSING POOLED.
11

  如果希望得到直接使用原始变量的判别函数,则可以在【判别分析】的对话框中,点击【统计】,勾选【未标准化】,点击【继续】,【确定】。

SPSS聚类与判别第45张

   运行示例,

典则判别函数系数

函数

1

2

花萼长

-.063

.007

花萼宽

-.155

.218

花瓣长

.196

-.089

花瓣宽

.299

.271

(常量)

-2.526

-6.987

未标准化系数

SPSS聚类与判别第46张SPSS聚类与判别第47张

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW
7   /CLASSIFY=NONMISSING POOLED.
12

  判别结果图形化展示,在【判别分析】的对话框中,点击【分类】,勾选【合并图】和【邻域图】,点击【继续】,【确定】。

SPSS聚类与判别第50张

   运行示例,

                                              领域图

典则判别

函数 2

      -16.0     -12.0      -8.0      -4.0        .0       4.0       8.0      12.0      16.0

          +---------+---------+---------+---------+---------+---------+---------+---------+

    16.0 +                                     13                                          +

         I                                     13                                          I

         I                                     13                                          I

         I                                     123                                         I

         I                                     123                                         I

         I                                    12 23                                        I

    12.0 +          +         +         +     12 23         +         +         +          +

         I                                    12  23                                       I

         I                                    12  23                                       I

         I                                    12   23                                      I

         I                                    12   23                                      I

         I                                   12     23                                     I

     8.0 +          +         +         +    12   + 23      +         +         +          +

         I                                   12      23                                    I

         I                                   12      23                                    I

         I                                   12       23                                   I

         I                                   12        23                                  I

         I                                  12         23                                  I

     4.0 +          +         +         +   12    +     23  +         +         +          +

         I                                  12          23                                 I

         I                                  12           23                                I

         I                                  12           23                                I

         I                                 12             23                               I

         I                                 12             23    *                          I

      .0 +          +         + *       +  12     +        23         +         +          +

         I                                 12         *    23                              I

         I                                 12               23                             I

         I                                 12                23                            I

         I                                12                 23                            I

         I                                12                  23                           I

    -4.0 +          +         +         + 12      +         + 23      +         +          +

         I                                12                   23                          I

         I                                12                   23                          I

         I                                12                    23                         I

         I                               12                     23                         I

         I                               12                      23                        I

    -8.0 +          +         +         +12       +         +    23   +         +          +

         I                               12                       23                       I

         I                               12                       23                       I

         I                               12                        23                      I

         I                              12                          23                     I

         I                              12                          23                     I

   -12.0 +          +         +         12        +         +        23         +          +

         I                              12                           23                    I

         I                              12                            23                   I

         I                             12                             23                   I

         I                             12                              23                  I

         I                             12                              23                  I

   -16.0 +                             12                               23                 +

          +---------+---------+---------+---------+---------+---------+---------+---------+

      -16.0     -12.0      -8.0      -4.0        .0       4.0       8.0      12.0      16.0

                                         典则判别函数 1

领域图中使用的符号

符号  分组  标签

------  ------  ----------------------

   1         1  刚毛鸢尾花

   2         2  变色鸢尾花

   3         3  佛吉尼亚鸢尾

   *            指示组质心

   当新案例被计算出来散点坐标后,即可被绘制在该图形中,该坐标点落在那个范围,就应当属于哪个类别。演示领域图的用法,

SPSS聚类与判别第51张

SPSS聚类与判别第52张

   从上图可见,该案例显然应当判为第1类,即毛鸢尾花,与实际相一致。如果需同时对一批未知样本给出类别判断,则可以使用save子对话框中的存储功能。

SPSS聚类与判别第53张

   从这幅图同样可以看到第1判别轴上3中不同类型的植物区分得很清楚,而在第2判别轴上重合地非常厉害。

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.
13

  判别效果检验,在【判别分析】的对话框中,点击【分类】,勾选【摘要表】,【继续】,【确定】。

SPSS聚类与判别第56张

   运行示例,

分类结果a

 

分类

预测组成员信息

总计

 

刚毛鸢尾花

变色鸢尾花

佛吉尼亚鸢尾花

原始

计数

刚毛鸢尾花

50

0

0

50

 

变色鸢尾花

0

48

2

50

 

佛吉尼亚鸢尾花

0

1

49

50

 

%

刚毛鸢尾花

100.0

.0

.0

100.0

 

变色鸢尾花

.0

96.0

4.0

100.0

 

佛吉尼亚鸢尾花

.0

2.0

98.0

100.0

 

a. 正确地对 98.0% 个原始已分组个案进行了分类。

  上表可见,刚毛花全部正确预测,而另两种花则存在错判。(判断率超过41.67%就可)。显然,用本例建立的判别函数进行新样品判别,效果将是令人非常满意。

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=RAW TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.
14

  适用条件的判断方法,在【判别分析】的对话框中,点击【统计】,勾选【平均值】、【单变量ANOVA】、【博克斯】,【继续】,【确定】。

SPSS聚类与判别第59张

 运行示例

组平均值的同等检验

威尔克 Lambda

F

自由度 1

自由度 2

显著性

花萼长

.397

111.847

2

147

.000

花萼宽

.598

49.371

2

147

.000

花瓣长

.059

1179.052

2

147

.000

花瓣宽

.071

960.007

2

147

.000

  由表中的最后的Sig值可见,很明显各组间存在差异,因此这些变量的判别可能是有作用的。

对数决定因子

分类

对数决定因子

刚毛鸢尾花

4

5.353

变色鸢尾花

4

7.594

佛吉尼亚鸢尾花

4

10.495

汇聚组内

4

8.920

打印的决定因子的秩和自然对数是组协方差矩阵的相应信息。

  协方差齐性的博克斯检验,从右侧的输出可见组间协方差这一原假设被拒绝,竟然连Fisher给出的判别分析实例都违反这一适用条件,从这一点看出协方差齐性等要求往往是被忽视的。

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS EQUAL
6   /STATISTICS=MEAN STDDEV UNIVF BOXM RAW TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.
15

  贝叶斯判别分析,同样的实例。SPSS操作,在【判别分析】的对话框中,点击【统计】勾选【费希尔】,【继续】;点击【分类】,勾选【根据组大小计算】,【继续】,【确定】。

SPSS聚类与判别第62张  运行示例,

分类函数系数

分类

刚毛鸢尾花

变色鸢尾花

佛吉尼亚鸢尾花

花萼长

1.687

1.101

.865

花萼宽

2.695

1.070

.747

花瓣长

-.880

1.001

1.647

花瓣宽

-2.284

.197

1.695

(常量)

-80.268

-71.196

-103.890

费希尔线性判别函数

  SPSS认为贝叶斯判别的基本思想,即按判别函数值最大的一组进行归类的思想是Fisher提出来的,因此称该方法为Fisher线性判别函数。

  刚毛鸢尾花:SPSS聚类与判别第63张 

  变色鸢尾花:SPSS聚类与判别第64张

  弗吉尼亚鸢尾花:SPSS聚类与判别第65张 

  下面利用判别式直接计算新观测属于各类的评分,得分最高的一类就是该观测相应的类别。如由于刚毛花判别函数的得分最高,因此和前面一样,判别结果将其归为刚毛花一类,代码:

SPSS聚类与判别第7张SPSS聚类与判别第8张
1 DISCRIMINANT
2   /GROUPS=spno(1 3)
3   /VARIABLES=slen swid plen pwid
4   /ANALYSIS ALL
5   /PRIORS SIZE
6   /STATISTICS=MEAN STDDEV UNIVF BOXM COEFF TABLE
7   /PLOT=COMBINED MAP
8   /CLASSIFY=NONMISSING POOLED.
16

小结

   聚类方法的选择:

聚类方法

对记录聚类

对变量聚类

数据量<100

100-1000

>1000

连续变量

指定类别数量

层次聚类

√√

√ 树状图×

 

非层次聚类

 

√ 树状图×

 

 

K-均值聚类法

 

√ 树状图×

√(可包含离散变量)

  判别分析的使用条件,

  (1)自变量和因变量的关系符合线性假定。

  (2)因变量的取值是独立的,且必须是事先就已经确定的。

  (3)自变量服从多元正态分布。

  (4)所有自变量在各组件方差齐性,协方差矩阵也相等。

  (5)所有自变量不存在多重共线性。

  违背条件的处理方法,

  (1)当样本的多元正态分布假设不能满足的时候采取的措施和方法:

  • 如果数据的超平面是若干分段结构的时候,采用分段判别分析。
  •  如果数据满足方差齐性和协方差齐性可以采用距离判别分析、经典判别分析、贝叶斯判别分析。(建议使用经典判别分析)
  •  如果数据不满足方差齐性和协方差齐性,则采用经典判别分析、非参数判别分析、距离判别分析。
  • 进行变量变换。

 (2)方差齐性和协方差齐性不满足,

  • 增加样本。
  • 采用经典判别分析、非参数判别分析、距离判别分析。

(3)存在多重共线,

  •  增加样本。
  •  采用逐步判别分析。
  • 采用岭判别分析。
  •  对成分进行主成分分析,用因子代替变量进行判别。
  • 通过相关矩阵知识删去共线性的自变量。

(4)当线性假设被违反,

  • 离散型判别分析或混合型判别分析。
  •  K最近邻判别分析或核密度判别分析。
  • 采用二次判别分析。 

免责声明:文章转载自《SPSS聚类与判别》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇emacs不能使用中文输入法JavaScript数字精度丢失问题总结下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Logistic模型原理详解以及Python项目实现

此文转载自:https://blog.csdn.net/master_hunter/article/details/111158447#commentBox 目录 前言 一、Logistic回归模型 二、Logit模型 三、几率 四、Logistic模型 五、基于最优化方法的最佳回归系数确定 5.1梯度上升算法 5.1.1梯度 5.1.2使用梯度上升找到最...

用MATLAB做聚类分析

用MATLAB做聚类分析 近期工作关系用到Matlab做聚类分析。所谓聚类分析,其目的在于将研究的数据样本划分为不同类别。Matlab的统计工具箱提供了相应的分析工具。相关概念在网上可以找到不少资料,这里推荐两个博客供大家参考。 pluskid的漫谈 Clustering 系列:http://blog.pluskid.org/?page_id=78...

Fisher判别式(LDA)

Fisher判别式(LDA) 简介 上面从贝叶斯公式出发,得到了线性判别分析的公式,这里从另外一个角度来看线性判别分析,也就是常说的Fisher判别式。其实Fisher判别式就是线性判别分析(LDA),只是在讨论Fisher判别式的时候,更侧重于LDA的数据降维的能力。 在应用统计学方法解决模式识别、机器学习中的问题的时候,有一个问题总是会出现:维数问题。...

R学习之R层次聚类方法(tm包)

1、距离计算  ## method for class 'TermDocumentMatrix' dissimilarity(x, y = NULL, method) ## method for class 'PlainTextDocument' dissimilarity(x, y = NULL, method) 参数说明:    x:文档-词矩阵或...

Canopy聚类算法

一、概念     与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。这种Can...

SQL分类之DML:增删改表中的数据

DML:增删改表中的数据 1.添加数据: 语法: insert into 表名(列名1,列名2,...列名n) values(值1,值2,...值n); 注意: 1.列名和值要一一对应。 2.如果表名后,不定义列名,则默认给所有列添加值。 insert into 表名 values(值1,值2,...值n); 3.除了数字类型,其他类型需要使用引号(单...