admin管理员组

文章数量:1530842

2024年5月9日发(作者:)

SPSS19.0实战之聚类分析

这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最

后。CNBlOG网页排版太困难了,又不喜欢live writer……

聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数

据做两种不同的类型的聚类;它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类

方法也采用3种不同方法,来考察对比它们之间的优劣。由于没有样本数据,因此不能根

据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的

大小。

分析数据依然采用线性回归所使用的标准化后的能源消费数据。

1.1 系统聚类

本次实验的系统聚类都是凝聚系统聚类,为了控制变量,都采用平方Euclidean距离。

1.1.1 最短距离聚类法

最短距离法聚类步骤如下:

1. 规定样本间的距离,计算样本两两之间的距离,得到对称矩阵。开始每个样品自成

一类。

2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1,将这两个样

品归并成为一类,记为G1。

3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。

我们在SPSS中实现最短距离分析非常简单。单击“

-->“

”-->“”

”。将弹出如图1-1所示的对话框,设置相应的参数即可。

图1-1 最短距离法

我们的数据已经做过标准化,在“转化值”-->“标准化”选项上选无。

在统计量的聚类成员中选择“无”,因为这是非监督分类,不需要指定最终分出的类个数。在

绘制中选择绘制“树状图”。单击确定,得到以下结果。

1. 表3-1显示了数据的缺失情况:

案例处理汇总

a

案例

有效

N

30

百分比

100.0

缺失

N

0

百分比

.0

表1-1 数据汇总

我们的数据经过预处理,所以缺失值个数为0.

2. 由于相关矩阵过于庞大,无法在文档中贴出,得到的是一个非相似矩阵。表1-2是样品

聚类过程。样品21和28在第一步合并为一类,它们之间的非相关系数最小,为0.211。

在下一次合并是第十步。在第五步的时候,样品2、27、14组成一类,出现群集,样品个

数为3。如上类推,可以解释表格。

聚类表

表1-2 聚类过

群集组合 首次出现阶群集

阶 群集 1 群集 2 系数 群集 1 群集 2 下一阶

我们可以通过更

1 21 28 .211 0 0 10

2 12 24 .465 0 0 6

加形象直观的树

3 2 27 .491 0 0 5

状图来观察整个

4 13 20 .585 0 0 9

聚类过程和聚类

5 2 14 .645 3 0 6

效果。如图1-2

6 2 12 .678 5 2 7

所示,最短距离

7 2 7 .702 6 0 8

法组内距离小,

8 2 25 .773 7 0 9

但组间距离也较

9 2 13 .916 8 4 11

10 21 29 1.085 1 0 12

小。分类特征不

11 2 18 1.106 9 0 12

够明显,无法凸

12 2 21 1.115 11 10 13

显各个省份的能

13 2 17 1.360 12 0 14

源消耗的特点。

14 2 26 1.564 13 0 15

但是我们可以看

15 2 22 1.627 14 0 16

到广东省能源消

16 2 5 1.649 15 0 17

17 2 8 1.877 16 0 18

耗组成和其他省

18 2 16 3.027 17 0 19

份特别不同,在

19 2 30 3.543 18 0 20

其他方法中也显

20 2 11 4.930 19 0 21

现出来。

21 2 4 5.024 20 0 22

22 2 10 6.445 21 0 24

23 1 9 8.262 0 0 26

24 2 15 10.093 22 0 25

25 2 23 10.096 24 0 26

26 1 2 10.189 23 25 27

27 1 6 11.387 26 0 28

28 1 3 13.153 27 0 29

29 1 19 32.367 28 0 0

总计

N

30

百分比

100.0

图1-2 最短距离法聚类图

1.1.2 组间联接聚类

组间联接聚类法定义为两类之间的平均平方距离,即

。类C

K

和C

L

合并为下一步的C

M

则C

M

与C

J

距离的

递推公式为:

我们依然贴出组间联接法的聚类表和树状图。

1. 聚类表如表1-3所示,相关解释类似于表1-1所述。

聚类表

群集组合

阶 群集 1 群集 2 系数

首次出现阶群集

群集 1 群集 2 下一阶

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

21

12

2

13

7

2

2

13

17

21

2

8

21

5

2

2

4

2

10

1

2

6

2

6

1

1

3

1

1

28

24

27

20

12

14

7

25

18

29

13

26

22

17

8

5

16

21

11

9

30

10

4

15

2

23

6

3

19

.211

.465

.491

.585

.840

.937

1.105

1.331

1.360

1.495

1.703

1.877

2.133

2.378

3.715

3.926

5.024

5.526

6.445

8.262

8.744

11.508

14.202

14.288

19.822

23.363

26.516

31.210

69.114

0

0

0

0

0

3

6

4

0

1

7

0

10

0

11

15

0

16

0

0

18

0

21

22

20

25

0

26

28

0

0

0

0

2

0

5

0

0

0

8

0

0

9

12

14

0

13

0

0

0

19

17

0

23

0

24

27

0

10

5

6

8

7

7

11

11

14

13

15

15

18

16

16

18

23

21

22

25

23

24

25

27

26

28

28

29

0

表1-2 组间联接聚类法

2. 树状图如图1-3所示,可以看到聚类的组间距离较大,组内距离较小。聚类结果较为理

想。可以看到海南与青海,宁夏自治区,重庆市的能源消耗特点近似,北京、上海两地能源

消耗特点也近似。江浙两地亦然。

最后广东和各地能源消耗特点都不同。

1.1.3 Ward法聚类

Ward即离差平方和法。它的思想是,同类离差平方和较小,类间偏差平方和较大。Ward

方法并类时总是使得并类导致的类内离差平方和增量最小。公式:

递推公式:

我依然贴出ward法聚类表和树状图。

1. 聚类表如表1-4所示,相关解释类似于表1-1所述.

聚类表

1

2

3

4

5

6

7

8

群集组合

群集 1 群集 2

21 28

12 24

2 27

13 20

7 12

2 14

17 18

2 29

系数

.106

.338

.584

.876

1.359

1.902

2.582

3.351

首次出现阶群集

群集 1 群集 2

0 0

0 0

0 0

0 0

0 2

3 0

0 0

6 0

下一阶

11

5

6

9

12

8

13

12

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

13

8

21

2

5

2

4

8

10

1

2

6

5

6

3

2

1

3

1

3

1

25

26

22

7

17

13

16

30

11

9

21

10

8

15

4

5

23

6

2

19

3

4.140

5.079

6.290

7.647

9.006

11.211

13.723

16.642

19.865

23.996

30.556

37.154

43.898

52.159

62.103

73.051

86.143

106.442

139.001

177.895

286.000

4

0

1

8

0

12

0

10

0

0

14

0

13

20

0

19

18

23

25

26

27

0

0

0

5

7

9

0

0

0

0

11

17

16

0

15

21

0

22

24

0

28

14

16

19

14

21

19

23

21

20

25

24

22

24

26

26

27

27

28

29

29

0

表1-4 Ward法聚类表

2. 树状图如图1-4所示,我们可以看到这个结果较以上两种方法都为理想,组内距离都很

小,控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗

特点。最后在接近10次迭代,广东被归入山东、山西这两个分别是能源消耗大省和能源产

量大省的一类,说明它们之间的相似度也不大。

图1-4 Ward法聚类树状图

1.2 K-mean聚类

K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先

把被聚对象进行初始分类,然后逐步调整,得到最终K个分类。 K-mean法对离群点敏感

容易扭曲数据分布。

单击“”-->“” -->“”将弹出如图1-5所示的

对话框,我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。

图1-5 K-mean聚类设置

下面输出和解释K-mean聚类结果。

1. 表1-5是K-mean的迭代历史记录,非常明了。

迭代历史记录

a

聚类中心内的更改

迭代

1 2 3 4 5

1 2.796 1.414 1.813 .000 2.299

2 1.014 .000 .990 .000 .000

3 .000 .000 .000 .000 .000

a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心

的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的

最小距离为 5.209。

表1-5 迭代历史记录

2. 表1-6是每个聚类样品数表。就是该次K-mean聚类所形成的类它们的样品数量。

每个聚类中的案例数

聚类 1 3.000

2 19.000

3 3.000

4 1.000

5 4.000

有效 30.000

缺失 .000

表1-6 聚类样品数

3. 表1-7是K-mean聚类的各个类的具体成员。距离代表的是样品自身和种子点的距离。

聚类成员

案例号 地区名称 聚类 距离

1 北京市 1 1.489

2 天津市 2 .596

3 河北省 3 2.575

4 山西省 3 1.381

5 内蒙古自治区 2 1.951

6 辽宁省 5 2.299

7 吉林省 2 .646

8 黑龙江省 2 1.785

9 上海市 1 2.506

10 江苏省 5 1.569

11 浙江省 5 2.034

12 安徽省 2 .850

13 福建省 2 1.096

14 江西省 2 .960

15 山东省 5 2.489

16 河南省 3 1.980

17 湖北省 2 2.096

18 湖南省 2 1.211

19 广东省 4 .000

20 广西壮族自治区 2 .926

21 海南省 2 1.905

22 重庆市 2 1.436

23 四川省 1 2.954

24 贵州省 2 .984

25 云南省 2 1.080

26 陕西省 2 1.007

27 甘肃省 2 .955

28 青海省 2 1.744

29 宁夏回族自治区 2 1.414

30 新疆维吾尔自治区 2 2.503

表1-7 聚类成员

最后看到分类结果与ward法有所相似,但是组内距离较大。实际效果不如Ward法。而

且该方法需要事先设定分类的个数,并不适合没有先验知识的条件下的数据聚类。

2.总结

本次实习主要通过一批国内的能源消耗和产量数据,来实现回归分析和聚类分析。回归分析

得到一个拟合度良好多元线性回归方程:Y=0.008+1.061x

1

+0.087x

2

+0.157

x

3

-0.365x

4

-0.105 x

5

-0.017x

6

。该方程的残差分析也通过了。聚类分析通过比较三种不

同的系统聚类方法,同时还比较了K-mean方法与系统聚类法的不同。在处理该批数据的

四种聚类方法中,以ward法最为理想。Ward法所做的聚类得到组间距离最大,组内距离

最小。

本文标签: 聚类距离样品数据分类