admin管理员组

文章数量:1531240

2024年4月22日发(作者:)

基于潜类别模型和关联规则的交通事故原因分析

陈妤婕;吴爱华

【摘 要】由于交通事故偶然性和大量影响因素的存在,不同类型的交通事故的影响

因素不同.利用潜类别分析和关联规则挖掘的交通事故原因分析模型,先把交通事故

聚类成不同的类别再进行关联规则挖掘.已有的关联规则算法会遗漏一些出现次数

少但影响交通事故的严重程度的因素,对此,给出带权重的关联规则算法,用实验证明

该算法可以有效克服影响因素被遗漏的问题.

【期刊名称】《现代计算机(专业版)》

【年(卷),期】2018(000)015

【总页数】6页(P8-13)

【关键词】交通事故分析;聚类分析;潜类别模型;关联规则

【作 者】陈妤婕;吴爱华

【作者单位】上海海事大学信息工程学院,上海201306;上海海事大学信息工程学

院,上海201306

【正文语种】中 文

0 引言

道路交通事故可表述为人、车、道路、环境等动静态因素耦合失调而导致的人或物

同时受到损失的过程[1]。影响交通事故的因素非常多,涉及到人、车、道路、环

境等多个方面,这些因素使事故在发生时间、空间等方面呈现出偶然性。然而大量

的事故研究证明,交通事故实际上是受其内部规律所支配的,影响因素之间存在着

联系,决定着交通事故的发生和发展变化。

很多数据挖掘方法被用来分析不同因素对交通事故的影响。文献[2]用泊松回归模

型分析了道路设计、交通量等因素对信号交叉口严重伤亡事故发生频次的影响。文

献[3]运用贝叶斯网络对事故概率进行定量计算,全面合理地解释了事故发生的根

本原因。文献[4]将事故严重程度细分为八个等级分别建立神经网络模型,结果表

明是否采用安全带、是否酒驾和车辆用途等与事故严重程度直接相关。

由于大量影响因素的存在,交通事故表现出丰富的异构性[5],不同类型的交通事

故的影响因素不同,如果在分析过程中不考虑这一点,一些导致交通事故发生的原

因可能会被隐藏,聚类处理可以降低事故的异构性。文献[6]用K-modes聚类算

法对道路类型、光照情况、时间等特征聚类分析后进行致因分析,结果显示总体数

据集并不能体现单个类别的事故原因。文献[7]用K-means方法来分析事故碰撞前

后的模式特点。文献[8]用潜类别分析对交通事故数据进行聚类,作为致因分析的

初步工作。

本文提出了一个基于潜类别分析和关联规则挖掘的交通事故原因分析模型。在数据

集中,存在一些出现次数较少但影响交通事故的严重程度的因素,而现有的关联规

则算法如Apriori[9]、FP-Growth[10]等受阈值设定的限制,往往会遗漏这些因素,

因此本文在原有的关联规则挖掘算法上增加了权重的设定,更有效地挖掘出影响交

通事故严重程度的因素。

1 模型设计

本文的算法模型主要分为三个部分:特征选择、聚类分析、关联规则挖掘,总体流

程如图1所示。

(1)特征选择。特征集中有一部分无效特征,需要先用合适的特征选择方法剔除。

本文先用卡方检验和Boruta算法初步选择,然后用递归特征消除(RFE)算法保

留预测效果最好时的特征集。

(2)聚类分析。交通事故的异构性是分析过程中的一个主要问题,用潜类别分析

对数据集进行聚类分析可以找出相同类型的交通事故,有效降低异构性。

(3)关联规则挖掘。本文对Apriori算法进行改进,每次扫描数据集生成频繁项

集时,用关联规则挖掘算法找出每个类别中影响交通事故严重程度的关联规则。

最后使用关联规则对新数据集中的事故按严重程度进行分类,比较Apriori算法和

带权重的Apriori算法的分类效果。

图1 算法总体流程示意图

2 潜类别分析

潜类别分析(Latent Class Analysis,LCA)是潜变量分析的一种,目的在于利用

潜类别解释多个外显分类变量之间复杂的关联,并使各潜类别内部的外显变量之间

满足局部独立性[11]。

下面给出潜类别模型的形式化定义:

(1)数据集中共有N条记录,每条记录都是一个观察值 i,i=1…N。

(2)每个特征都是离散化的,又称为多分类变量或外显变量,每个多分类变量j

(j=1…J)有Kj个取值。

例如,性别这个多分类变量,有男性或女性两种取值,此时 Kj的值为2。

(3)Yijk=1表示观察值i(i=1…N)在第j(j=1…J)个变量的第k(k=1…Kj)

个取值有应答;否则,Yijk=0。

(4)潜类别分析通过拟合运算把数据集聚类成R个潜类,πijk表示在第r

(r=1…R)个潜类中,第j个外显变量的第k个取值的条件概率。

(5)pr表示每个类别在数据集中的概率。

在潜类别分析模型中,上面定义的符号满足下列条件:

在第r个潜类中,第j个外显变量的每个取值的条件概率之和为1;每个潜类别在

数据集中的概率之和为1:

根据局部独立性假设,独立事件联合发生的概率等于单独发生概率之积,在每个类

别r内部,多个变量的联合概率为:

其中,Yi是观察值i各个变量的取值集合,表示一起具体的交通事故。

Yi在整个数据集中出现的概率如下,采用贝叶斯后验概率将个体归入不同的潜类

别。

3 关联规则挖掘算法改进

3.1 带权重的Apriori算法

关联规则的形式化描述:设D是一个包含n个事务的数据库,每个事务T∈D。令

I={I1,I2,…,Im}是项的集合,每个事务T都是项的集合。关联规则是形如A→B的

蕴涵表达式,其中A⊂I,B⊂I且A∩B=∅。关联规则的强度用支持度(support)和

置信度(confi⁃dence)来度量[10]。支持度确定规则在数据集中的频繁程度,而

置信度确定B在包含于A的事务中的频繁程度。

在现有关联规则算法中,k-项集支持度的计算往往只考虑它在数据库中出现的频率,

而没有考虑不同的项集的重要程度不同。例如,某商店每月售出3000条毛巾,

300台吹风机,吹风机由于达不到设定的最小支持度而被过滤掉,但吹风机的销

售利润比毛巾要高很多,可认为吹风机比毛巾更重要。

为了在计算支持度时考虑项集的重要程度,引入下面的公式,其中,P(X)表示

项集X出现的频繁程度,W(X)表示项集X的权重:

β=1时,P(X)和 W(X)对支持度的计算具有相同的影响;β>1时,W(X)

具有更大影响;β<1时,P(X)具有更大影响。

用Logistic回归模型计算权重W,Logistic回归模型具有计算代价不高,易于解

释和理解的优点。Logis⁃tic回归模型进行训练后每个特征的系数即为权重W,项

集 X(X={Ix1,Ix2,…,Ixm})的权重计算:

带权重的Apriori算法伪代码:

(1)频繁项集的生成:

(2)对每一条频繁项集,生成关联规则:{频繁项集X}→严重程度

3.2 用关联规则分类

T为一起交通事故,K为频繁项集的最大长度。

关联规则分类伪代码:

4 实验分析

实验数据来源于美国国家公路交通安全管理局(NHTSA),选取2015年美国境

内的共51686条交通事故数据,交通事故的严重程度根据有无人员受伤分为严重

和不严重。算法实现使用了Python和R语言。

在特征选择阶段,最终RFE的实验结果如图2所示,在特征数量为19时,算法效

果最好。

图2 不同特征数量下RFE算法的效果

保留的特征中,与人相关的是:SEX(性别)、AGE(年龄)、PCRASH1(事故

前驾驶员行为)、REST_USE(防护设备影响)、PERALCH(酒精影响);与车

相关的是:RELJCT2(与交叉路口的关系)、DEFORMED(汽车损伤程度)、

ROLLOVER(是否翻车)、ACC_TYPE(碰撞类型)、PCRASH2(导致事故发生

事件)、SPEEDREL(是否超速);与环境相关的是:HOUR(时间)、MONTH

(季节)、VTRAFCON(道路控制标志)、LGTCON(光线情况)、WEATHR

(天气);与道路相关是:VSURCOND(路面情况)、VTRAFWAY(道路分成

几路)。

在潜类别分析阶段,从潜类别数目为1的初始模型开始,拟合了15个模型。衡量

模型的好坏用到了3种信息准则:AIC、BIC、CAIC。随着类别数目的增加,虽然

统计拟合上有了一定的提升,但是聚类结构会更加复杂,因此,作为统计拟合和聚

类结构复杂度之间的折中,选择潜类别数目为7的模型。

图3是每个类别中各个多分类变量的分布情况,这里只显示了部分特征。

图3 每个类别中各个多分类变量的分布情况

每个类别的具体描述如下:

类别1(C1):有85.77%的交通事故都发生在交叉路口,且碰撞类型为双向碰撞,

达到了46.93%,相比其他类别,该类中由于其他车辆驶入道路引发事故的比率是

最高的,达到了30.92%,有75.32%的事故发生在没有道路控制标志的情况下,

道路划分最高的是双向无分离道路(56.46%)。

类别 2(C2):多数事故都不发生在交叉路口(86.27%),相比其他类别,翻车

率是最高的,达到了33.66%,超速率也是最高的,达到了37.92%,73.29%的车

的碰撞类型都是单辆机动车从道路边上驶离,事故发生的原因中车辆失控占比最高

(48.35%),有55.86%道路为湿,绝大部分事故(92.01%)发生时没有道路控

制标志,多数事故发生在雨天(41.5%)。

类别 3(C3):多数事故(68.67%)发生在晚上(18-23)点,但有74.94%的

事故发生在黑暗有人造光的情况下,发生在交叉口和其相关位置的比率都较高,达

到了47.64%和39.84%,58.13%的事故发生在有交通信号灯的情况下,发生在秋

冬季节的比率相对其他类别是最高的,达到了68.88%。

类别4(C4):有51.75%的事故中车辆都受到了一定程度的损伤,事故发生的原

因中占比最高的是机动车与行人、物体等相撞(48.35%),事故发生前,较多

(45.56%)驾驶员在变道,大部分事故(70.62%)发生时没有道路控制标志,有

36.19%的驾驶员集中在45-60岁。

类别5(C5):多数事故都发生在晚上和凌晨,达到50.84%和39.87%,大部分

事故都不发生在交叉路口(88.54%),事故前,69.13%的驾驶员都在直行,大部

分事故(92.74%)发生时没有道路控制标志,受酒精影响的事故比其他类别多,

达到了36.52%,63.18%的事故发生在黑暗无人造光的情况下,多数事故发生在

雨天(53.18%)。

类别6(C6):有93.02%的事故都发生在交叉路口相关的路段上,超过半数

(56.35%)的事故中车辆受到一定程度的损伤,事故发生前较多驾驶员在转弯

(57.66%),60岁以上的驾驶员在该类中的占比达到了30.51%,较其他类别高。

类别7(C7):超过半数(55.16%)的事故中车辆受到了一定程度的损伤,绝大

多数事故的碰撞类型为双车追尾(94.98%),事故发生前,67.25%的驾驶员都在

直行,事故原因基本上是由路上的其他车辆造成的(96.97%),相比其他类别,

有29.46%的事故驾驶员粗心驾驶,较其他类别高。

对每个类别进行关联规则挖掘,图4和图5都选取了C1、C2中置信度最高的5

条规则,可以看出,Apriori算法和带权重的Apriori算法挖掘出的关联规则有所

不同,而用带权重的Apriori算法挖掘的关联规则更贴近每个类别的特点,说明带

权重的关联规则算法能更有效地挖掘出影响交通事故严重程度的因素。这里公式

(7)中的 β取1,认为项集在数据库中出现的频率和它的权重对支持度具有相同

的影响。

图4 Apriori算法挖掘出的关联规则

图5 带权重的Apriori算法挖掘出的关联规则

利用挖掘出的关联规则对美国境内2012-2014年的各10000条交通事故进行分

类。图6为分类的结果,从图中可以看出,用带权重的Apriori算法进行分类的准

确率都要高于Apriori算法,进一步说明带权重的关联规则算法能更有效。

图6 2012-2014年不同关联规则算法下的分类效果

5 结语

本文提出了一个基于潜类别分析和关联规则挖掘的交通事故原因分析模型,先后用

聚类分析和带权重的关联规则算法,分析了各个事故类型的特点,有效克服了影响

因素被过滤的问题,并证明了本文算法要优于Apriori算法。然而,本文在关联规

则算法权重和支持度的比较上偏经验化,后续的研究中可做进一步研究。

参考文献:

[1]裴玉龙,蒋贤才,程国柱等.道路交通事故分析与再现技术[M].北京:人民交通出

版社,2010.

[2]Wong S C,Sze N N,Li Y butory Factors to Traffic Crashes at

Signalized in Hongkong[J].Accident Analysis and Prevention,2007,39

(6):1107-1113.

[3]龙科军,刘勇.基于贝叶斯网络的交通事故机理分析[J].安全与环境学报,2010,10

(1):150-153.

[4]Delen D,Sharda R,Bessonov fying Significant Predictors of Injury

Severity in Traffic Accidents Using a Series of Artificial Neural

Networks[J].Accident Analysis&Prevention,2006,38(3):434-444.

[5]Savolainen P,Mannering F,Lord D,Quddus Statistical Analysis of

Highway Crash-Injury Severities:a Review and Assessment of

Methodological Alternatives[J].Accid Anal Prev.2011,43:1666-1676.

[6]S Kumar,D Toshniwal.A Data Mining Framework to Analyze Road

Accident Data[J].Journal of Big Data,2015,2(1):26.

[7]R Mauro,MD Luca,G Dell' a K-Means Clustering Algorithm

to Examine Patterns of Vehicle Crashes in Before-After Analysis[J].Modern

Applied Science,2013,7(10):11-19.

[8]de Ona J,Lopez G,Mujalli R,Calvo is of Traffic Accidents on Rural

Highways Using Latent Class Clustering and Bayesian Anal

Prev,2013,51:1-10.

[9]Agrawal R,Im ielinski T,Swami Association Rules between Sets

of Items in Large Databases[J].Acm Sigmod Record,1993,22(2):207-216.

[10]J Han,J Pei,Y Frequent Patterns Without Candidate

Generation[J].Acm Sigmod Record,1999,29(2):1-12.

[11]邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社,2008.

本文标签: 规则关联事故