基于潜类别模型和关联规则的交通事故原因分析|电子爱好者

admin管理员组
文章数量:1531240

2024年4月22日发(作者：)

基于潜类别模型和关联规则的交通事故原因分析

陈妤婕;吴爱华

【摘要】由于交通事故偶然性和大量影响因素的存在,不同类型的交通事故的影响

因素不同.利用潜类别分析和关联规则挖掘的交通事故原因分析模型,先把交通事故

聚类成不同的类别再进行关联规则挖掘.已有的关联规则算法会遗漏一些出现次数

少但影响交通事故的严重程度的因素,对此,给出带权重的关联规则算法,用实验证明

该算法可以有效克服影响因素被遗漏的问题.

【期刊名称】《现代计算机（专业版）》

【年(卷),期】2018(000)015

【总页数】6页(P8-13)

【关键词】交通事故分析;聚类分析;潜类别模型;关联规则

【作者】陈妤婕;吴爱华

【作者单位】上海海事大学信息工程学院,上海201306;上海海事大学信息工程学

院,上海201306

【正文语种】中文

0 引言

道路交通事故可表述为人、车、道路、环境等动静态因素耦合失调而导致的人或物

同时受到损失的过程[1]。影响交通事故的因素非常多，涉及到人、车、道路、环

境等多个方面，这些因素使事故在发生时间、空间等方面呈现出偶然性。然而大量

的事故研究证明，交通事故实际上是受其内部规律所支配的，影响因素之间存在着

联系，决定着交通事故的发生和发展变化。

很多数据挖掘方法被用来分析不同因素对交通事故的影响。文献[2]用泊松回归模

型分析了道路设计、交通量等因素对信号交叉口严重伤亡事故发生频次的影响。文

献[3]运用贝叶斯网络对事故概率进行定量计算，全面合理地解释了事故发生的根

本原因。文献[4]将事故严重程度细分为八个等级分别建立神经网络模型，结果表

明是否采用安全带、是否酒驾和车辆用途等与事故严重程度直接相关。

由于大量影响因素的存在，交通事故表现出丰富的异构性[5]，不同类型的交通事

故的影响因素不同，如果在分析过程中不考虑这一点，一些导致交通事故发生的原

因可能会被隐藏，聚类处理可以降低事故的异构性。文献[6]用K-modes聚类算

法对道路类型、光照情况、时间等特征聚类分析后进行致因分析，结果显示总体数

据集并不能体现单个类别的事故原因。文献[7]用K-means方法来分析事故碰撞前

后的模式特点。文献[8]用潜类别分析对交通事故数据进行聚类，作为致因分析的

初步工作。

本文提出了一个基于潜类别分析和关联规则挖掘的交通事故原因分析模型。在数据

集中，存在一些出现次数较少但影响交通事故的严重程度的因素，而现有的关联规

则算法如Apriori[9]、FP-Growth[10]等受阈值设定的限制，往往会遗漏这些因素，

因此本文在原有的关联规则挖掘算法上增加了权重的设定，更有效地挖掘出影响交

通事故严重程度的因素。

1 模型设计

本文的算法模型主要分为三个部分：特征选择、聚类分析、关联规则挖掘，总体流

程如图1所示。

（1）特征选择。特征集中有一部分无效特征，需要先用合适的特征选择方法剔除。

本文先用卡方检验和Boruta算法初步选择，然后用递归特征消除（RFE）算法保

留预测效果最好时的特征集。

（2）聚类分析。交通事故的异构性是分析过程中的一个主要问题，用潜类别分析

对数据集进行聚类分析可以找出相同类型的交通事故，有效降低异构性。

（3）关联规则挖掘。本文对Apriori算法进行改进，每次扫描数据集生成频繁项

集时，用关联规则挖掘算法找出每个类别中影响交通事故严重程度的关联规则。

最后使用关联规则对新数据集中的事故按严重程度进行分类，比较Apriori算法和

带权重的Apriori算法的分类效果。

图1 算法总体流程示意图

2 潜类别分析

潜类别分析（Latent Class Analysis，LCA）是潜变量分析的一种，目的在于利用

潜类别解释多个外显分类变量之间复杂的关联，并使各潜类别内部的外显变量之间

满足局部独立性[11]。

下面给出潜类别模型的形式化定义：

（1）数据集中共有N条记录，每条记录都是一个观察值 i，i=1…N。

（2）每个特征都是离散化的，又称为多分类变量或外显变量，每个多分类变量j

（j=1…J）有Kj个取值。

例如，性别这个多分类变量，有男性或女性两种取值，此时 Kj的值为2。

（3）Yijk=1表示观察值i（i=1…N）在第j（j=1…J）个变量的第k（k=1…Kj）

个取值有应答；否则，Yijk=0。

（4）潜类别分析通过拟合运算把数据集聚类成R个潜类，πijk表示在第r

（r=1…R）个潜类中，第j个外显变量的第k个取值的条件概率。

（5）pr表示每个类别在数据集中的概率。

在潜类别分析模型中，上面定义的符号满足下列条件：

在第r个潜类中，第j个外显变量的每个取值的条件概率之和为1；每个潜类别在

数据集中的概率之和为1：

根据局部独立性假设，独立事件联合发生的概率等于单独发生概率之积，在每个类

别r内部，多个变量的联合概率为：

其中，Yi是观察值i各个变量的取值集合，表示一起具体的交通事故。

Yi在整个数据集中出现的概率如下，采用贝叶斯后验概率将个体归入不同的潜类

别。

3 关联规则挖掘算法改进

3.1 带权重的Apriori算法

关联规则的形式化描述：设D是一个包含n个事务的数据库，每个事务T∈D。令

I={I1,I2,…,Im}是项的集合，每个事务T都是项的集合。关联规则是形如A→B的

蕴涵表达式,其中A⊂I，B⊂I且A∩B=∅。关联规则的强度用支持度（support）和

置信度（confi⁃dence）来度量[10]。支持度确定规则在数据集中的频繁程度，而

置信度确定B在包含于A的事务中的频繁程度。

在现有关联规则算法中，k-项集支持度的计算往往只考虑它在数据库中出现的频率，

而没有考虑不同的项集的重要程度不同。例如，某商店每月售出3000条毛巾，

300台吹风机，吹风机由于达不到设定的最小支持度而被过滤掉，但吹风机的销

售利润比毛巾要高很多，可认为吹风机比毛巾更重要。

为了在计算支持度时考虑项集的重要程度，引入下面的公式，其中，P（X）表示

项集X出现的频繁程度，W（X）表示项集X的权重：

β=1时，P（X）和 W（X）对支持度的计算具有相同的影响；β＞1时，W（X）

具有更大影响；β＜1时，P（X）具有更大影响。

用Logistic回归模型计算权重W，Logistic回归模型具有计算代价不高，易于解

释和理解的优点。Logis⁃tic回归模型进行训练后每个特征的系数即为权重W，项

集 X（X={Ix1,Ix2,…,Ixm}）的权重计算：

带权重的Apriori算法伪代码：

（1）频繁项集的生成：

（2）对每一条频繁项集，生成关联规则：{频繁项集X}→严重程度

3.2 用关联规则分类

T为一起交通事故，K为频繁项集的最大长度。

关联规则分类伪代码：

4 实验分析

实验数据来源于美国国家公路交通安全管理局（NHTSA），选取2015年美国境

内的共51686条交通事故数据，交通事故的严重程度根据有无人员受伤分为严重

和不严重。算法实现使用了Python和R语言。

在特征选择阶段，最终RFE的实验结果如图2所示，在特征数量为19时，算法效

果最好。

图2 不同特征数量下RFE算法的效果

保留的特征中，与人相关的是：SEX（性别）、AGE（年龄）、PCRASH1（事故

前驾驶员行为）、REST_USE（防护设备影响）、PERALCH（酒精影响）；与车

相关的是：RELJCT2（与交叉路口的关系）、DEFORMED（汽车损伤程度）、

ROLLOVER（是否翻车）、ACC_TYPE（碰撞类型）、PCRASH2（导致事故发生

事件）、SPEEDREL（是否超速）；与环境相关的是：HOUR（时间）、MONTH

（季节）、VTRAFCON（道路控制标志）、LGTCON（光线情况）、WEATHR

（天气）；与道路相关是：VSURCOND（路面情况）、VTRAFWAY（道路分成

几路）。

在潜类别分析阶段，从潜类别数目为1的初始模型开始，拟合了15个模型。衡量

模型的好坏用到了3种信息准则：AIC、BIC、CAIC。随着类别数目的增加，虽然

统计拟合上有了一定的提升，但是聚类结构会更加复杂，因此，作为统计拟合和聚

类结构复杂度之间的折中，选择潜类别数目为7的模型。

图3是每个类别中各个多分类变量的分布情况，这里只显示了部分特征。

图3 每个类别中各个多分类变量的分布情况

每个类别的具体描述如下：

类别1（C1）：有85.77%的交通事故都发生在交叉路口，且碰撞类型为双向碰撞，

达到了46.93%，相比其他类别，该类中由于其他车辆驶入道路引发事故的比率是

最高的，达到了30.92%，有75.32%的事故发生在没有道路控制标志的情况下，

道路划分最高的是双向无分离道路（56.46%）。

类别 2（C2）：多数事故都不发生在交叉路口（86.27%），相比其他类别，翻车

率是最高的，达到了33.66%，超速率也是最高的，达到了37.92%，73.29%的车

的碰撞类型都是单辆机动车从道路边上驶离，事故发生的原因中车辆失控占比最高

（48.35%），有55.86%道路为湿，绝大部分事故（92.01%）发生时没有道路控

制标志，多数事故发生在雨天（41.5%）。

类别 3（C3）：多数事故（68.67%）发生在晚上（18-23）点，但有74.94%的

事故发生在黑暗有人造光的情况下，发生在交叉口和其相关位置的比率都较高，达

到了47.64%和39.84%，58.13%的事故发生在有交通信号灯的情况下，发生在秋

冬季节的比率相对其他类别是最高的，达到了68.88%。

类别4（C4）：有51.75%的事故中车辆都受到了一定程度的损伤，事故发生的原

因中占比最高的是机动车与行人、物体等相撞（48.35%），事故发生前，较多

（45.56%）驾驶员在变道，大部分事故（70.62%）发生时没有道路控制标志，有

36.19%的驾驶员集中在45-60岁。

类别5（C5）：多数事故都发生在晚上和凌晨，达到50.84%和39.87%，大部分

事故都不发生在交叉路口（88.54%），事故前，69.13%的驾驶员都在直行，大部

分事故（92.74%）发生时没有道路控制标志，受酒精影响的事故比其他类别多，

达到了36.52%，63.18%的事故发生在黑暗无人造光的情况下，多数事故发生在

雨天（53.18%）。

类别6（C6）：有93.02%的事故都发生在交叉路口相关的路段上，超过半数

（56.35%）的事故中车辆受到一定程度的损伤，事故发生前较多驾驶员在转弯

（57.66%），60岁以上的驾驶员在该类中的占比达到了30.51%，较其他类别高。

类别7（C7）：超过半数（55.16%）的事故中车辆受到了一定程度的损伤，绝大

多数事故的碰撞类型为双车追尾（94.98%），事故发生前，67.25%的驾驶员都在

直行，事故原因基本上是由路上的其他车辆造成的（96.97%），相比其他类别，

有29.46%的事故驾驶员粗心驾驶，较其他类别高。

对每个类别进行关联规则挖掘，图4和图5都选取了C1、C2中置信度最高的5

条规则，可以看出，Apriori算法和带权重的Apriori算法挖掘出的关联规则有所

不同，而用带权重的Apriori算法挖掘的关联规则更贴近每个类别的特点，说明带

权重的关联规则算法能更有效地挖掘出影响交通事故严重程度的因素。这里公式

（7）中的 β取1，认为项集在数据库中出现的频率和它的权重对支持度具有相同

的影响。

图4 Apriori算法挖掘出的关联规则

图5 带权重的Apriori算法挖掘出的关联规则

利用挖掘出的关联规则对美国境内2012-2014年的各10000条交通事故进行分

类。图6为分类的结果，从图中可以看出，用带权重的Apriori算法进行分类的准

确率都要高于Apriori算法，进一步说明带权重的关联规则算法能更有效。

图6 2012-2014年不同关联规则算法下的分类效果

5 结语

本文提出了一个基于潜类别分析和关联规则挖掘的交通事故原因分析模型，先后用

聚类分析和带权重的关联规则算法，分析了各个事故类型的特点，有效克服了影响

因素被过滤的问题，并证明了本文算法要优于Apriori算法。然而，本文在关联规

则算法权重和支持度的比较上偏经验化，后续的研究中可做进一步研究。

参考文献：

[1]裴玉龙，蒋贤才，程国柱等.道路交通事故分析与再现技术[M].北京:人民交通出

版社，2010.

[2]Wong S C,Sze N N,Li Y butory Factors to Traffic Crashes at

Signalized in Hongkong[J].Accident Analysis and Prevention,2007,39

（6）:1107-1113.

[3]龙科军，刘勇.基于贝叶斯网络的交通事故机理分析[J].安全与环境学报,2010,10

（1）:150-153.

[4]Delen D,Sharda R,Bessonov fying Significant Predictors of Injury

Severity in Traffic Accidents Using a Series of Artificial Neural

Networks[J].Accident Analysis&Prevention，2006,38（3）:434-444.

[5]Savolainen P,Mannering F,Lord D,Quddus Statistical Analysis of

Highway Crash-Injury Severities:a Review and Assessment of

Methodological Alternatives[J].Accid Anal Prev.2011,43：1666-1676.

[6]S Kumar,D Toshniwal.A Data Mining Framework to Analyze Road

Accident Data[J].Journal of Big Data,2015,2（1）:26.

[7]R Mauro,MD Luca,G Dell' a K-Means Clustering Algorithm

to Examine Patterns of Vehicle Crashes in Before-After Analysis[J].Modern

Applied Science,2013,7（10）:11-19.

[8]de Ona J,Lopez G,Mujalli R,Calvo is of Traffic Accidents on Rural

Highways Using Latent Class Clustering and Bayesian Anal

Prev，2013，51:1-10.

[9]Agrawal R,Im ielinski T,Swami Association Rules between Sets

of Items in Large Databases[J].Acm Sigmod Record,1993,22（2）:207-216.

[10]J Han,J Pei,Y Frequent Patterns Without Candidate

Generation[J].Acm Sigmod Record,1999,29（2）:1-12.

[11]邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社，2008.

本文标签：规则关联事故

版权声明：本文标题：基于潜类别模型和关联规则的交通事故原因分析内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/xitong/1713750733a369353.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

基于潜类别模型和关联规则的交通事故原因分析

更多相关文章

445端口

TP-LINK路由器转发规则详细说明

猎豹浏览器广告过滤规则

自然拼读元音规则

飞鱼路由器上网行为管理功能配置的防火墙设置步骤

360网页游戏-打开网页即可玩-360最新网页游戏-360游戏中心

汶川特大地震环境应急监测回顾与思考

上海牛津版本六年级上册Module 2Unit 7笔记知识整理

商场踩踏事件应急处置方案

近年来校园踩踏事件案例

人体麦克风法

centos6.5下修改SSH端口及禁用root远程登录的方法是什么

如何设置路由器的防火墙

Vim使用教程+规则（vimtutor）

【Golang安全编码】gosec常见规则的解决办法

java自定义findbugs规则,FindBugs 规则整理：Performance

怎么将开放端口添加到防火墙规则中（Windows10)

小米电视 “断腿门”：出现多次同类事故，或涉安全隐患

Intel处理器家族及命名规则

Windows系统文件命名常见规则

发表评论

推荐文章

计算机主机闪烁显示器黑屏,win7系统电脑显示器一闪一闪黑屏的几种解决方法...

【转】奇文共欣赏，疑义相与析：原文转载《电脑维护技巧》(N条举措N条理由)并请大家交流研讨...

两万字长文总结，梳理 Java 入门进阶那些事（推荐收藏）

PHP环境搭建

移动硬盘显示加密，怎么处理。

热门文章

Codeforces Contest 1082 C Multi-Subject Competition——枚举

《花雕学AI》20：ChatGPT使用之体验评测AI EDU的网页版+桌面端+Android+App store组合

软件开发常见缩写

win10除去桌面图标小箭头(绝对没有坑！！！)与 该文件没有与之关联的程序来执行该操作。。。

win10常用dos命令

记一次笔记本win键失灵 不能用 windows 徽标键失灵

【持续更新】2006-2023历代AMD 服务器Instinct桌面显卡列表，Instinct显卡发布日期

再见虚拟机，手把手教会你在 Kubernetes 中安装 Windows 10 操作系统

洋哥大讲堂之解决Windows10操作系统中，“启用或关闭windows功能”里没有IE选项的问题...

【mac】未能正确拔出移动硬盘，导致移动硬盘无法识别问题。

最新文章

硬件知识：直接拔掉USB移动硬盘会对硬盘造成影响吗？

移动硬盘读取出错打不开的原因和解决方法

MAC移动硬盘的坑

win10 系统识别不了移动硬盘

centos7 识别移动硬盘

移动硬盘显示盘符但是打不开，提示加密

移动硬盘提示磁盘结构损坏且无法读取要怎么办啊

自己碰到的一个“无法读取源文件或磁盘”问题处理

linux下读取移动硬盘

win10读取linux硬盘,win10怎么读取lxext4格式硬盘

如何读群晖硬盘_群晖直接读取Windows硬盘-eSATA挂载

小米盒子访问计算机硬盘,小米盒子3增强版，连接移动硬盘盒有问题，详尽测试。...

移动硬盘文件或目录损坏且无法读取？分享恢复数据的方法

移动硬盘“文件或目录损坏且无法读取”错误修复方法

移动硬盘显示由于IO设备错误,无法运行此项请求，要如何找回文件

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

win10除去桌面图标小箭头(绝对没有坑！！！)与该文件没有与之关联的程序来执行该操作。。。

记一次笔记本win键失灵不能用 windows 徽标键失灵

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载