SPSS19实战之聚类分析|电子爱好者

admin管理员组
文章数量:1530842

2024年5月9日发(作者：)

SPSS19.0实战之聚类分析

这篇文章与上一篇的回归分析是一次实习作业整理出来的。所以参考文献一并放在该文最

后。CNBlOG网页排版太困难了，又不喜欢live writer……

聚类分析是将物理或者抽象对象的集合分成相似的对象类的过程。本次实验我将对同一批数

据做两种不同的类型的聚类；它们分别是系统聚类和K-mean聚类。其中系统聚类的聚类

方法也采用3种不同方法，来考察对比它们之间的优劣。由于没有样本数据，因此不能根

据其数据做判别分析。评价标准主要是观察各聚类方法的所得到的类组间距离和组内聚类的

大小。

分析数据依然采用线性回归所使用的标准化后的能源消费数据。

1.1 系统聚类

本次实验的系统聚类都是凝聚系统聚类，为了控制变量，都采用平方Euclidean距离。

1.1.1 最短距离聚类法

最短距离法聚类步骤如下：

1. 规定样本间的距离，计算样本两两之间的距离，得到对称矩阵。开始每个样品自成

一类。

2. 选择对称矩阵中的最小非零元素。将两个样品之间最小距离记为D1，将这两个样

品归并成为一类，记为G1。

3. 计算G1与其他样品距离。重复以上过程直到所有样品合并为一类。

我们在SPSS中实现最短距离分析非常简单。单击“

-->“

”-->“”

”。将弹出如图1-1所示的对话框，设置相应的参数即可。

图1-1 最短距离法

我们的数据已经做过标准化，在“转化值”-->“标准化”选项上选无。

在统计量的聚类成员中选择“无”，因为这是非监督分类，不需要指定最终分出的类个数。在

绘制中选择绘制“树状图”。单击确定，得到以下结果。

1. 表3-1显示了数据的缺失情况：

案例处理汇总

案例

有效

百分比

100.0

缺失

百分比

表1-1 数据汇总

我们的数据经过预处理，所以缺失值个数为0.

2. 由于相关矩阵过于庞大，无法在文档中贴出，得到的是一个非相似矩阵。表1-2是样品

聚类过程。样品21和28在第一步合并为一类，它们之间的非相关系数最小，为0.211。

在下一次合并是第十步。在第五步的时候，样品2、27、14组成一类，出现群集，样品个

数为3。如上类推，可以解释表格。

聚类表

表1-2 聚类过

群集组合首次出现阶群集

程

阶群集 1 群集 2 系数群集 1 群集 2 下一阶

我们可以通过更

1 21 28 .211 0 0 10

2 12 24 .465 0 0 6

加形象直观的树

3 2 27 .491 0 0 5

状图来观察整个

4 13 20 .585 0 0 9

聚类过程和聚类

5 2 14 .645 3 0 6

效果。如图1-2

6 2 12 .678 5 2 7

所示，最短距离

7 2 7 .702 6 0 8

法组内距离小，

8 2 25 .773 7 0 9

但组间距离也较

9 2 13 .916 8 4 11

10 21 29 1.085 1 0 12

小。分类特征不

11 2 18 1.106 9 0 12

够明显，无法凸

12 2 21 1.115 11 10 13

显各个省份的能

13 2 17 1.360 12 0 14

源消耗的特点。

14 2 26 1.564 13 0 15

但是我们可以看

15 2 22 1.627 14 0 16

到广东省能源消

16 2 5 1.649 15 0 17

17 2 8 1.877 16 0 18

耗组成和其他省

18 2 16 3.027 17 0 19

份特别不同，在

19 2 30 3.543 18 0 20

其他方法中也显

20 2 11 4.930 19 0 21

现出来。

21 2 4 5.024 20 0 22

22 2 10 6.445 21 0 24

23 1 9 8.262 0 0 26

24 2 15 10.093 22 0 25

25 2 23 10.096 24 0 26

26 1 2 10.189 23 25 27

27 1 6 11.387 26 0 28

28 1 3 13.153 27 0 29

29 1 19 32.367 28 0 0

总计

百分比

100.0

图1-2 最短距离法聚类图

1.1.2 组间联接聚类

组间联接聚类法定义为两类之间的平均平方距离，即

。类C

和C

合并为下一步的C

则C

与C

距离的

递推公式为：

我们依然贴出组间联接法的聚类表和树状图。

1. 聚类表如表1-3所示，相关解释类似于表1-1所述。

聚类表

群集组合

阶群集 1 群集 2 系数

首次出现阶群集

群集 1 群集 2 下一阶

。

.211

.465

.491

.585

.840

.937

1.105

1.331

1.360

1.495

1.703

1.877

2.133

2.378

3.715

3.926

5.024

5.526

6.445

8.262

8.744

11.508

14.202

14.288

19.822

23.363

26.516

31.210

69.114

表1-2 组间联接聚类法

2. 树状图如图1-3所示，可以看到聚类的组间距离较大，组内距离较小。聚类结果较为理

想。可以看到海南与青海，宁夏自治区，重庆市的能源消耗特点近似，北京、上海两地能源

消耗特点也近似。江浙两地亦然。

最后广东和各地能源消耗特点都不同。

1.1.3 Ward法聚类

Ward即离差平方和法。它的思想是，同类离差平方和较小，类间偏差平方和较大。Ward

方法并类时总是使得并类导致的类内离差平方和增量最小。公式：

递推公式：

我依然贴出ward法聚类表和树状图。

1. 聚类表如表1-4所示，相关解释类似于表1-1所述.

聚类表

阶

群集组合

群集 1 群集 2

21 28

12 24

2 27

13 20

7 12

2 14

17 18

2 29

系数

.106

.338

.584

.876

1.359

1.902

2.582

3.351

首次出现阶群集

群集 1 群集 2

0 0

0 2

3 0

0 0

6 0

下一阶

4.140

5.079

6.290

7.647

9.006

11.211

13.723

16.642

19.865

23.996

30.556

37.154

43.898

52.159

62.103

73.051

86.143

106.442

139.001

177.895

286.000

表1-4 Ward法聚类表

2. 树状图如图1-4所示，我们可以看到这个结果较以上两种方法都为理想，组内距离都很

小，控制在五次迭代之内。然后组间距离非常大。各分类的样品也基本符合它们的能源消耗

特点。最后在接近10次迭代，广东被归入山东、山西这两个分别是能源消耗大省和能源产

量大省的一类，说明它们之间的相似度也不大。

图1-4 Ward法聚类树状图

1.2 K-mean聚类

K-mean聚类是用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析就是先

把被聚对象进行初始分类，然后逐步调整，得到最终K个分类。 K-mean法对离群点敏感

容易扭曲数据分布。

单击“”-->“” -->“”将弹出如图1-5所示的

对话框，我们根据系统聚类法的经验将K选择为5。迭代次数和系统聚类一样选择25次。

图1-5 K-mean聚类设置

下面输出和解释K-mean聚类结果。

1. 表1-5是K-mean的迭代历史记录，非常明了。

迭代历史记录

聚类中心内的更改

迭代

1 2 3 4 5

1 2.796 1.414 1.813 .000 2.299

2 1.014 .000 .990 .000 .000

3 .000 .000 .000 .000 .000

a. 由于聚类中心内没有改动或改动较小而达到收敛。任何中心

的最大绝对坐标更改为 .000。当前迭代为 3。初始中心间的

最小距离为 5.209。

表1-5 迭代历史记录

2. 表1-6是每个聚类样品数表。就是该次K-mean聚类所形成的类它们的样品数量。

每个聚类中的案例数

聚类 1 3.000

2 19.000

3 3.000

4 1.000

5 4.000

有效 30.000

缺失 .000

表1-6 聚类样品数

3. 表1-7是K-mean聚类的各个类的具体成员。距离代表的是样品自身和种子点的距离。

聚类成员

案例号地区名称聚类距离

1 北京市 1 1.489

2 天津市 2 .596

3 河北省 3 2.575

4 山西省 3 1.381

5 内蒙古自治区 2 1.951

6 辽宁省 5 2.299

7 吉林省 2 .646

8 黑龙江省 2 1.785

9 上海市 1 2.506

10 江苏省 5 1.569

11 浙江省 5 2.034

12 安徽省 2 .850

13 福建省 2 1.096

14 江西省 2 .960

15 山东省 5 2.489

16 河南省 3 1.980

17 湖北省 2 2.096

18 湖南省 2 1.211

19 广东省 4 .000

20 广西壮族自治区 2 .926

21 海南省 2 1.905

22 重庆市 2 1.436

23 四川省 1 2.954

24 贵州省 2 .984

25 云南省 2 1.080

26 陕西省 2 1.007

27 甘肃省 2 .955

28 青海省 2 1.744

29 宁夏回族自治区 2 1.414

30 新疆维吾尔自治区 2 2.503

表1-7 聚类成员

最后看到分类结果与ward法有所相似，但是组内距离较大。实际效果不如Ward法。而

且该方法需要事先设定分类的个数，并不适合没有先验知识的条件下的数据聚类。

2.总结

本次实习主要通过一批国内的能源消耗和产量数据，来实现回归分析和聚类分析。回归分析

得到一个拟合度良好多元线性回归方程：Y=0.008+1.061x

+0.087x

+0.157

-0.365x

-0.105 x

-0.017x

。该方程的残差分析也通过了。聚类分析通过比较三种不

同的系统聚类方法，同时还比较了K-mean方法与系统聚类法的不同。在处理该批数据的

四种聚类方法中，以ward法最为理想。Ward法所做的聚类得到组间距离最大，组内距离

最小。

本文标签：聚类距离样品数据分类

版权声明：本文标题：SPSS19实战之聚类分析内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dongtai/1715229518a441898.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

2小时前

在Windows系统中都有自带一个录屏的功能，该功能可以帮助录制屏幕中格式内容，不过有很多升级到Win11系统的小伙伴在录制完之后不清楚保存在哪里，那么遇到这种情况应该怎么办

电子爱好者 - 最新技术资讯及电子产品介绍！

SPSS19实战之聚类分析

更多相关文章

【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

2021年全国职业院校技能大赛大数据应用技术国赛题

ABP 删除数据 发生异常 data may have been modified or deleted since entities were loaded

数据量再大也不怕！笔记本电脑也可以分析 100GB 数据

国内电脑行业数据浅析

大数据基础和硬件介绍

数据分析模型和工具_数据分析师工具包：模型

Js实现2个浏览器窗口数据交互window.postMessage()方法

开源免费的手机版 LoRa App，演示和调试 LoRaWAN 数据的神器

市场运营：App 渠道追踪的5种方法以及渠道数据分析的两大思路

美国加州大学数据安全保护措施TOP10借鉴与启发

Python数据分析笔记groupbycontact reset_index

博客摘录「 BCI Competition IV 2a数据集介绍」2023年12月10日

脑机接口（BCI）相关的数据集（BCI Competition，BCI Challenge）

BCI | 基于小波变换和卷积神经网络的运动想象数据集BCI Competition III dataSet II的二分类

R语言+ChatGPT实现数据分析预测

计算机读取数据的接囗教程,八爪鱼采集怎样获取数据API链接 八爪鱼采集获取数据API链接的方法...

Google Chrome浏览器数据文件地址修改

五笔字根查询接口,五笔输入法数据

Win11录屏数据保存在哪里？Win11录屏数据保存的位置

发表评论

推荐文章

使用ChatGPT

计算机开机慢的原因及解决方法,电脑开机速度慢怎么解决？Win10电脑开机速度变慢的原因及解决方法(2)...

2020 - [Java基础 +多线程 + 虚拟机] + [计网 + 操作系统] + [MySQL] + [Redis] + [RocketMQ] + [Spring]常见面试题与解析

电脑开机突然变得很慢？是机器老化么？你该了解了解这些了

【问题解决】AMD驱动安装出现182错误

热门文章

张家俊：关于ChatGPT八个技术问题的猜想

Windows操作系统+朝鲜红星+国产麒麟+红旗+渗透专用系统+Oracle专用+技术专栏【资源大合集】 | 寻找C站宝藏

Windows下使用Grub4dos无损（无需格式化）制作WindowsLinux双引导U盘并引导ISO镜像

电子邮箱地址如何注册？个人电子邮箱地址大全

Chrome浏览器 改成黑色主题（含控制台）

斐讯k2路由器刷PandoraBox一宽带多人用

解决安装完IIS后导致路由器IP 192.168.0.1无法登陆的问题

此主机支持 AMD-V，但 AMD-V 处于禁用状态的解决办法

AMD锐龙CPU虚拟机安装macOS与常用软件教程

服务器2008系统开机黑屏,windows server 2008 R2开机进度条闪过后黑屏

最新文章

WiFi和WLAN有什么区别和联系？

公共wifi不安全家里的wifi就安全了吗？

路由器wifi热点丢包率高_使用笔记本电脑和虚拟路由器创建自己的Wifi热点

无线路由器服务器拒接,wifi被拒绝接入解决方法(图文)

WiFi篇（一）-WiFi“黑”暗的一面

如何给自己各种帐号编一个安全又不会忘记的密码？

ESP8266 Node mcu WIFI无线控制入门_01无线远程控制LED

看自己的Wifi是否被盗用的技巧

【Android wifi】wifi基本原理

【Android工程师与智能家居产品的第一次接触②】给设备配网 Esp8266 wifi模块的快速配网和AP配网简介（付Android demo）

【智能家居篇】wifi网络接入原理（中）——认证Authentication

Android Wifi连接控制、TCP、UDP通信，6.0以上适配

网络安全--解除认证攻击wifi(详细教程)

WIFI 一键配置原理-ESP8266

openwrt折腾记4-开通ipv6( wifi-client模式下)

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

ABP 删除数据发生异常 data may have been modified or deleted since entities were loaded

计算机读取数据的接囗教程,八爪鱼采集怎样获取数据API链接八爪鱼采集获取数据API链接的方法...

Chrome浏览器改成黑色主题（含控制台）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载