admin管理员组

文章数量:1531411

2024年6月6日发(作者:)

3.聚类分析

2.相关分析

1.描述性分析

(一)实验目的

民的正常工作与生活。

(三)数据来源

计年鉴》获得。

(四)案例中使用的SPSS方法

4.主成分分析

(五)实验内容与步骤

1.城市空气质量因素的描述性统计

描述统计量

影响因素。并据此提出科学合理的对策建议。

(二)问题描述

年欢

管理科学与工程 2013200644

包括频数、极小值、极大值、均值和标准差五个项目,见表1.1。

表1.1 描述统计量

SPSS的综合运用——以我国城市空气质量分析为例

12月伊始,我国遭受了入冬以来最大范围雾霾天气,今年12月伊始,我国中东部地区迎

二级的天数、年平均气温和年平均相对湿度六项影响空气质量的因素做描述性统计分析,

通过查询“中华人民共和国国家统计局官方网站”的“国家统计数据库”,《中国统

由于能见度过低,导致多处高速公路封道关闭,给车辆出行带来了不便,也严重影响了市

来了严重雾霾事件,几乎涉及中东部所有地区。天津、河北、山东、江苏、安徽、河南、

分析法,研究我国主要城市的空气质量,以及各参数对空气质量好坏的影响以及最主要的

包括汽车、飞机、火车、船舶等交通工具的煤烟、尾气排放。本文通过聚类分析和主成分

生态环境、影响人民群众身体健康。从污染物构成来看,我国大气污染来源主要有三个方

车尾气污染物排放总量迅速增加、氮氧化物污染趋势加重、全国形成多个酸雨区等,危害

染特征,城市大气环境中总悬浮颗粒浓度普遍超标、二氧化硫污染保持在较高水平、机动

近年来随着现代化和工业化的进程,我国大气污染状况十分严重,主要呈现煤烟型污

包括火力发电、钢铁和有色金属冶炼,各种化学工业给大气造成的污染;三是交通污染源,

在2013年之前,大部分人对于雾霾天气的认知都会自然而然觉得是北京的事。然而,

浙江、上海等多地空气质量指数达到六级严重污染级别,使得京津冀与长三角雾霾连成片。

面:一是生活污染源,包括饮食或取暖时燃料向大气排放有害气体和烟雾;二是工业污染源,

本实验对城市空气质量的可吸入颗粒物、二氧化硫、二氧化氮、空气质量达到及好于

N

极小值极大值均值标准差

可吸入颗粒物

二氧化硫

二氧化氮

空气质量达到及好于二级的天数

年平均气温

年平均相对湿度

有效的 N (列表状态)

31

31

31

31

31

31

31

.040

.008

.016

244

5.2

34

.138

.079

.068

365

23.3

81

.09121

.03902

.04005

326.81

13.877

63.35

.021762

.015930

.011855

27.463

4.9856

11.047

从表1.1可以看出,在影响空气质量的因素中,可吸入颗粒物的最小值为0.04毫克/

立方米,最大值为0.138毫克/立方米,平均值为0.9121毫克/立方米,标准差为

0.21762;二氧化硫的最小值为0.08毫克/立方米,最大值为0.079毫克/立方米,平均值

为0.03902毫克/立方米,标准差为0.01593;二氧化氮的最小值为0.016毫克/立方米,

最大值为0.068毫克/立方米,平均值为0.04005毫克/立方米,标准差为0.011855;空气

质量达到及好于二级的天数最小值为244天,最大值为365天,平均值为326.81天,标准

差为27.463;年平均气温的最小值为5.2摄氏度,最大值为23.3摄氏度,平均值为

13.877摄氏度,标准差为4.9856;年平均相对湿度最小值为34%,最大值为81%,平均值

为63.35%,标准差为11.047。

2.相关分析

(1)按照顺序:分析——相关——双变量打开相关分析的对话框

(2)在简单相关分析的主对话框中将所有变量选入“变量”中。在“显著性检验”框中,

有“双侧检验”和“单侧检验”。系统默认是双侧检验。

(3)点击“OK”,输出结果见表2.1。

表2.1 Pearson相关系数

相关性

空气质量达

可吸入颗二氧化二氧化到及好于二年平均气年平均相对

粒物

可吸入颗粒物

Pearson 相

关性

显著性(双

侧)

N

二氧化硫Pearson 相

关性

显著性(双

侧)

.001

31

1

硫氮

.460

**

级的天数

-.901

**

-.412

*

湿度

-.132.560

**

.001.009.000.021.480

3131313131

.560

**

1.311-.468

**

-.448

*

-.232

.089.008.011.210

二氧化氮

年平均气温

于二级的天数

年平均相对湿度

空气质量达到及好

Pearson 相

N

N

N

N

N

侧)

关性

侧)

关性

侧)

关性

侧)

关性

显著性(双

显著性(双

显著性(双

显著性(双

Pearson 相

Pearson 相

Pearson 相

*. 在 0.05 水平(双侧)上显著相关。

-.132

.480

.021

.000

.009

.460

**

-.412

*

31

31

31

31

-.232

.210

.011

.008

.089

.311

-.901

**

-.468

**

-.448

*

31

31

31

31

**. 在 .01 水平(双侧)上显著相关。

3131

-.040

.696

.073

.831

.047

-.359

*

31

31

31

31

31

1

星号表示在0.05的显著性水平下,相关系数是显著的。

.192

.241

.021

.047

-.359

*

.412

*

31

.000

.617

**

3131

1

31

.000

3131

31

.021

31

1.617

**

31

.192

31

1.412

*

.241

3131

-.040

.831.696

.073

313131

湿度的相关系数分别为0.901、0.56、0.46、0.468、0.617和0.617,在这些数据的右边

大雨二氧化硫和二氧化氮与空气质量达到及好于二级的天数的相关性;空气质量达到及好

置信度条件下呈高负相关,其中空气质量达到及好于二级的天数和可吸入颗粒物的相关性

表2.1给出了Pearson相关系数,以一个矩阵的形式表现出来。从中可以看出,可吸

入颗粒物、二氧化硫、二氧化氮空气质量达到好于二级的天数、年平均温度和年平均相对

故得出空气质量达到及好于二级的天数和可吸入颗粒物、二氧化硫和二氧化氮在0.01

于二级的天数和年平均温度、年平均相对湿度在0.01置信度条件下呈高度正相关,其中年

都有两个星号,表示在0.01的显著性水平下,是显著相关的,还有一些相关系数带有一个

平均温度与空气质量达到及好于二级的天数相关性等于平均相对湿度与空气质量达到及好

于二级的天数的相关性。

3.

聚类分析

3.1.衡量指标

衡量指标的选取对于聚类分析来说至关重要,具有决定性的意义,影响空气质量好坏

的因素有很多,有,温度,湿度等等,为此本文选取了四个指标,分别是可吸入颗粒物,

二氧化硫,二氧化氮,空气质量达到及好于二级的天数。用以衡量我国主要的31个城市的

空气质量,数据来源于中国统计年鉴2011年:

12-19 主要城市空气质量指标 (2011年)

单位:毫克/立方米

可吸入颗粒物

城 市

(PM

10

)

二氧化硫

(SO

2

)

二氧化氮

(NO

2

)

空气质量达到及

好于二级的天数

(天)

空气质量达到二级以上

天数占全年比重(%)

北 京

天 津

石 家 庄

太 原

呼和浩特

沈 阳

长 春

哈 尔 滨

上 海

南 京

杭 州

合 肥

福 州

南 昌

济 南

郑 州

武 汉

长 沙

广 州

南 宁

海 口

重 庆

成 都

贵 阳

昆 明

拉 萨

西 安

兰 州

西 宁

银 川

乌鲁木齐

0.113

0.093

0.099

0.084

0.076

0.096

0.091

0.099

0.080

0.097

0.093

0.113

0.069

0.088

0.104

0.103

0.100

0.083

0.069

0.073

0.041

0.093

0.100

0.079

0.065

0.040

0.118

0.138

0.105

0.095

0.132

0.028

0.042

0.052

0.064

0.054

0.059

0.026

0.041

0.029

0.034

0.039

0.022

0.009

0.056

0.051

0.051

0.039

0.040

0.028

0.026

0.008

0.038

0.031

0.049

0.037

0.009

0.042

0.048

0.043

0.038

0.079

0.056

0.038

0.041

0.023

0.039

0.033

0.043

0.046

0.051

0.049

0.058

0.025

0.032

0.038

0.036

0.047

0.056

0.047

0.049

0.033

0.016

0.031

0.051

0.030

0.044

0.023

0.041

0.042

0.026

0.030

0.068

286

320

320

308

347

332

345

317

337

317

333

303

360

347

320

318

306

341

360

351

365

324

322

349

365

364

305

244

316

333

276

78.4

87.7

87.7

84.4

95.1

91.0

94.5

86.8

92.3

86.8

91.2

83.0

98.6

95.1

87.7

87.1

83.8

93.4

98.6

96.2

100.0

88.8

88.2

95.6

100.0

99.7

83.6

66.8

86.6

91.2

75.6

3.2操作步骤

案例

“OK”。

注个案”。

(3)单击“方法”按钮,展开分层聚类分析的方法选择对话框。

表3.1 分成2~4类时各地区所属的类别

(1)选择分析——分类——系统聚类 打开系统聚类分析对话框。

完成上述步骤后,会得到凝聚状态表(表3.1)和树状图(图3.2)。

状图”,点击“继续”回到主对话框,此时分析结果中就包括了冰柱图。

(5)点击“保存”,然后再弹出的对话框中点击“继续”,最后回到主对话框中点击

击“继续”回到主对话框,此时分析结果中就包含了凝聚状态表。点击“绘制”选中“树

(4)点击“统计量”选中“合并进程表”。选择“方案范围”分别输入“2”和“4”,点

(2)在主对话框中将用于聚类的所有变量选入“变量”,把区分样本的标签变量选入“标

4 群集

群集成员

1

1

1

1

1

1

3 群集

1

1

1

1

1

1

2 群集案例

1

13: 福

1

12: 合

1

11: 杭

1

10: 南

1

8: 哈 尔滨

1

9: 上 海

7: 长

6: 沈

4: 太

2: 天

1: 北

17: 武

4 群集

群集成员

1

1

1

1

1

1

3 群集

1

1

1

1

1

1

2 群集

1

1

1

1

1

1

16: 郑

15: 济

3: 石 家

5: 呼和浩

1

1

1

1

1

1

1

1

1

1

1

24: 贵

1

14: 南

26: 拉

25: 昆

1

1

2

1

1

1

2

1

1

1

1

1

18: 长

19: 广

20: 南

21: 海

22: 重

23: 成

111

27: 西

111

111

28: 兰

332

111

29: 西

111

221

30: 银

111

111

31: 乌鲁

木齐

432

111

H I E R A R C H I C A L C L U S T E R A N A L Y S I S

Dendrogram using Average Linkage (Between Groups)

Rescaled Distance Cluster Combine

C A S E 0 5 10 15 20 25

Label Num +---------+---------+---------+---------+---------+

南 京 10 -+

成 都 23 -+-+

武 汉 17 -+ +-+

杭 州 11 ---+ +-----+

北 京 1 -----+ |

呼和浩特 5 -+ |

南 昌 14 -+-+ |

贵 阳 24 -+ +---+ |

沈 阳 6 ---+ | +-+

重 庆 22 -+ +-+ | |

银 川 30 -+---+ | | | |

西 宁 29 -+ | | | | |

哈 尔 滨 8 -+ +-+ | | |

郑 州 16 -+-+ | +-+ |

石 家 庄 3 -+ | | | +---+

济 南 15 -+ +-+ | | |

天 津 2 -+ | | | |

西 安 27 ---+ | | |

太 原 4 ---------+ | |

福 州 13 ---+---+ | |

南 宁 20 ---+ +-----+ +---------------------+

广 州 19 -+-+ | | |

昆 明 25 -+ +---+ | |

上 海 9 -+-+ | +---------+

长 沙 18 -+ | | | |

长 春 7 ---+ | | |

合 肥 12 -----------------+ | |

海 口 21 -+-------------------------------------+ |

拉 萨 26 -+ |

兰 州 28 -----------------------+-------------------------+

乌鲁木齐 31 -----------------------+

图3.2 树状图

从图3.2可以直观地观测整个聚类过程和结果。图中的第一行给出的是聚类方法“系

统聚类分析”;第2行给出的是计算类间距离的方法是“Ward method”;第3行是类别

合并的相对距离,它是把类别间的最大距离作为相对距离25,其余的距离都换算成与之相

比的相对距离大小。

4.1实验步骤

都选入“变量”中。

南,天津,西安,太原;

在这里我们将城市分成四类:

“Continue”按钮,返回主对话框。

公因子方差

第四类:海口,拉萨,兰州,乌鲁木齐

4.主成分分析

第一类:南京,成都,武汉,杭州,北京;

第三类:福州,南宁,广州,昆明,上海,长沙,长春,合肥;

分分析是觊觎相关系数矩阵进行的,是按照特征根大于1的原则提取成分。

据实际情况而定。本例分成四类比较合适,每一类别中包括的地区如表3.3所示。

表3.3 31个地区分成四类时的系统聚类结果

类别 地区 地区个数

5

第一类南京,成都,武汉,杭州,北京

14

第二类呼和浩特,南昌,贵阳,沈阳,重庆,银川,西

宁,哈尔滨,郑州,石家庄,济南,天津,西安,

太原

8

第三类福州,南宁,广州,昆明,上海,长沙,长春,

合肥

4

第四类海口,拉萨,兰州,乌鲁木齐

(4)点击主对话框中的“OK”,可以得出输出结果,见表4.1~4.5和图4.6。

表4.1Communalities(变量共同度)

类别之间的相对距离远近。该图提供了1~31个类别的所有分类结果,想要分成几类可根

(3)点击“Scores”按钮,弹出对话框“因子得分”,选中“因子得分系数矩阵”点击

图3.2中左边一列是参加聚类的对象;第2列是地区的编号;图3.2中线的长短表示

石图。点击“Continue”按钮,返回到主对话框。此对话框中的默认选项表明此次主要成

(1)按照顺序:分析——降维——因子分析 进入因子分析主对话框中,将左侧所有变量

第二类:呼和浩特,南昌,贵阳,沈阳,重庆,银川,西宁,哈尔滨,郑州,石家庄,济

(2)单击“抽取”按钮,弹出“因子分析:抽取”对话框,选中“Scree plot”以显示碎

从聚类分析谱系图可以看出,在不同的聚类标准下,聚类的结果不同:当距离为0时,

每个样本为单独的一类,即31个城市各自为一类;当距离为25时,31个城市被归为一类;

二氧化硫

可吸入颗粒物

初始

1.000

1.000

提取

.721

.878

6

5

4

3

2

1

成份

二氧化氮

年平均气温

年平均相对湿度

合计

1.407

2.974

.330

.573

.639

提取方法:主成份分析。

10.653

23.445

49.570

空气质量达到及好于二级的天数

初始特征值

方差的 %累积 %

5.497

9.553

98.718

93.221

83.668

73.015

49.570

合计

1.407

2.974

解释的总方差

.077

提取方法:主成份分析。

提取平方和载入

23.445

49.570

1.282100.000

方差的 %累积 %

73.015

49.570

表4.3 Component Matrix(因子载荷矩阵)

表4.2Total Variance Explained(方差贡献表)

1

合计

1.825

2.556

方差的 %累积 %

30.411

42.604

73.015

42.604

1.000

1.000

1.000

1.000

成份

旋转平方和载入

2

.781

.799

.782

.742

二氧化氮

二氧化硫

二氧化氮

二氧化硫

年平均气温

年平均气温

可吸入颗粒物

年平均相对湿度

年平均相对湿度

a. 已提取了 2 个成份。

提取方法 :主成分分析法。

a. 旋转在 3 次迭代后收敛。

空气质量达到及好于二级的天数

空气质量达到及好于二级的天数

旋转成份矩阵

a

可吸入颗粒物

成份

提取方法 :主成分分析法。 旋转法 :具有 Kaiser 标准化的正交旋转法。

2

1

-.286

-.838

.011

.721

.644

.915

-.447

-.683

-.864

.478

成份

2

-.363

-.201

.884

.847

.284

.271

-.189

.763

.577

.604

1

成份转换矩阵

1

.516

.856

提取方法 :主成分分析法。 旋转法 :具有 Kaiser 标准化的正交旋转法。

.739

.888

表4.5 Component Score Covariance Matrix(主成分得分系数矩阵)

表4.4 Component Score Coefficient Matrix(主成分得分系数矩阵)

2

-.516

.856

.022

.300

二氧化氮

二氧化硫

影响因素

年平均气温

可吸入颗粒物

4.2

结果分析

年平均相对湿度

a. 已提取了 2 个成份。

提取方法 :主成分分析法。

变量的解释程度都较高。

空气质量达到及好于二级的天数

1

图4.6 碎石图

表4.7成分矩阵

成份

-.447

.478

.739

.888

2

-.189

.763

.577

.604

.022

.300

-.683

-.864

(1)表2.1中的相关系数表明六个变量之间存在显著相关性,可以进行主成分分析。

(2)表4.1为变量共同度,表中最后一列的数据都大于0.720,表明提取的主成分对每个

(3)表4.2为方差贡献率,“合计”是特征根,“方差的%”是每个特征根对应的方差贡

献,“累计%”是累计方差贡献;“初始特征值”列出了所有的主成分,并按照特征根的大

小排列,而“提取平方和载入”对应的是提取主要成分后的各项指标。可以看出两个主成

分,因为有两个特征根大于1.由表4.2可以看出,第一主成分的特征根为2.974,方差贡

献率为49.570%,第二个主成分的特征根为1.407%,方差贡献率为23.445%,两个主成分

的累计方差贡献率达到73.015%,即两个主成分共解释了总变异的73.015%,进一步说明提

取两个主成分是比较合适。

(4)图4.6为碎石图,实际上是按特征根大小排列的主成分折线图。横坐标表示第几主成

分,纵坐标表示特征根的值,本例在第三个特征根处变得比较平缓,表明可以提取两个主

成分。

(5)表4.4为主成分得分系数矩阵,根据该矩阵,可以写出以标准化的原始变量表示的主

成分的表达式。若记标准化的原始变量为zx

1

、zx

2

、zx

3

、zx

4

,两主成分记为f

1

、f

2

,则表

达式为:

f

1

=0.915zx

1

+0.644zx

2

+0.721zx

3

-0.838zx

4

f

2

=-0.201zx

1

+0.363zx

2

+0.271zx

3

+0.284zx

4

用这三个因子代替原来的六个变量可以概括全部信息的83.668%,因此,描述空气质

量,可以用这三个因子,使问题更进一步简化、明了。如将31个城市的标准化变量值带入

上式,即可得31个城市的主成分得分。

(6)由表4.7可以看出,在第一主成分上,可吸入颗粒物的得分最高,说明可吸入颗粒物

是我国主要城市空气污染的主要污染源。在第二主成分上,年平均相对湿度的得分最高,

表明湿度在一定程度上也能够影响空气的质量。

5.结论

按照聚类分析的结果,可以将我国的31个城市的空气质量分为四类:

第一类型的城市属于污染型城市,这些城市人口密集,交通拥挤,工业发达,像北京

这样的全国政治文化中心,汽车拥有量很大,汽车尾气的排放量对空气的污染十分严重,

大气急需改善;第二类型的城市属于轻微污染型,这些城市的工业类型多以轻工业为主,

对大气的污染较轻;第三类型的城市空气质量良好,不会影响人体的健康;第四类型的城

市空气质量优,其中拉萨作为我国独具特色的一个旅游城市,不能以先发展再治理的短浅

目光来发展经济,一定要重视环境保护。

此外,可得出中国近年来空气质量的污染主要是由于可吸入颗粒物,严重影响人

体健康,故各个城市应该致力于控制和减少可吸入颗粒物的排放,比如植树造林,增

加绿地面积,尽量减少裸露的地面;城市施工时应注意防止造成大量的扬尘;加大产

业调整力度,加快淘汰落后产能,积极推广清洁能源;实施机动车高排放标准,加快

油品升级,加大高排放车辆检测力度,努力改善城市拥堵状况,严控机动车污染。

本文标签: 空气质量城市成分对话框分析