admin管理员组

文章数量:1530842

2024年1月6日发(作者:)

第47卷Vol.47第4期No.4计算机工程ComputerEngineering文章编号:1000-3428(2021)04-0100-08文献标志码:A2021年4月April2021中图分类号:TP391·人工智能与模式识别·基于群组与密度的轨迹聚类算法222俞庆英1,,赵亚军1,,叶梓彤1,,胡2凡1,,夏2芸1,(1.安徽师范大学计算机与信息学院,安徽芜湖241002;2.安徽师范大学网络与信息安全安徽省重点实验室,安徽芜湖241002)摘要:现有基于密度的聚类方法主要用于点数据的聚类,不适用于大规模轨迹数据。针对该问题,提出一种利用群组和密度的轨迹聚类算法。根据最小描述长度原则对轨迹进行分段预处理找出具有相似特征的子轨迹段,通过两次遍历轨迹数据集获取基于子轨迹段的群组集合,并采用群组搜索代替距离计算减少聚类过程中邻域对象集合搜索的计算量,最终结合群组和密度完成对轨迹数据集的聚类。在大西洋飓风轨迹数据集上的实验结果表明,与基于密度的TRACLUS轨迹聚类算法相比,该算法运行时间更短,聚类结果更准确,在小数据集和大数据集上的运行时间分别减少73.79%和84.19%,且运行时间的减幅随轨迹数据集规模的扩大而增加。关键词:群组;密度;群组可达;邻域搜索;轨迹聚类开放科学(资源服务)标志码(OSID):中文引用格式:俞庆英,赵亚军,叶梓彤,等.基于群组与密度的轨迹聚类算法[J].计算机工程,2021,47(4):100-107.英文引用格式:YUQingying,ZHAOYajun,YEZitong,toryclusteringalgorithmbasedongroupanddensity[J].ComputerEngineering,2021,47(4):toryClusteringAlgorithmBasedonGroupandDensity22222YUQingying1,,ZHAOYajun1,,YEZitong1,,HUFan1,,XIAYun1,rovincialKeyLaboratoryofNetworkandInformationSecurity,AnhuiNormalUniversity,Wuhu,Anhui241002,China)(ofComputerandInformation,AnhuiNormalUniversity,Wuhu,Anhui241002,China;【Abstract】Theexistingdensity-basedclusteringmethodsaremainlyusedforpointdataclustering,esstheproblem,thispaingtotheprincipleofMinimumDescriptionLength(MDL),thetrajectoriesarepreprocessedupsetbasedonthesubtrajectoriesisobtainedbytraversingthetrajectoriesdatasettwice,andthegroupsearchisusedtoreplacethedistancecalculationtoreducethecalculationamounty,mentalresultsonAtlantichurricanetrackdatasetshowthat,comparedwiththedensity-basedTRACLUStrackclusteringalgorithm,therunningtimeoftningtimeonthesmalldatasetandlargedatasetisreducedby73.79%and84.19%respectively,andthereductionofrunningtimeincreaseswiththeexpansionoftrackdataset.【Keywords】group;density;groupreachability;neighborhoodsearch;trajectoryclusteringDOI:10.19678/.1000-3428.00574250概述随着定位、通信和存储技术的快速发展,车辆行驶轨迹数据、用户活动轨迹数据以及飓风轨迹数据等大量移动对象的轨迹数据可被搜集和存储。轨迹数据中包含丰富的时空语义信息,从中可挖掘出众基金项目:国家自然科学基金(61702010,61972439)。多有价值的信息[1-2]。聚类分析是常用的数据挖掘方法,其被广泛用于图像分析[3]、模式识别[4]、知识发[5][6]现以及生物信息学等领域。近年来,研究人员针对不同的应用领域提出多种聚类算法,主要包括以BIRCH为代表的基于层次的聚类算法[7]、以STING[8]为代表的基于网格的聚类算法、以K-means为代表作者简介:俞庆英(1980—),女,副教授、博士,主研方向为空间数据处理、信息安全;赵亚军,本科生;叶梓彤、胡讲师、硕士。收稿日期:2020-02-19修回日期:2020-03-24E⁃mail:****************.cn凡,硕士研究生;夏芸,

第47卷第4期俞庆英,赵亚军,叶梓彤,等:基于群组与密度的轨迹聚类算法101的基于划分的聚类算法[9-10],以及以DBSCAN为代表的基于密度的聚类算法[11-12]。然而上述算法主要用于点数据的聚类,不能直接用于轨迹数据的聚类。对轨迹数据聚类可获得移动对象的代表性路径,从而掌握其周期性行为规律[13]。由于轨迹数据中包含大量时间、空间和形状等固有特征信息,因此大部分轨迹聚类方法先进行基于轨迹数据对象的相似性度量,再通过改进传统聚类算法来实现轨迹数据聚类。例如,目前使用最广泛的TRACLUS[14]轨迹聚类算法先基于轨迹分段进行相似性度量,再利用传统DBSCAN算法实现轨迹聚类。DBSCAN算法可形成任意形状的簇并能有效处理噪声点,但由于该算法在执行过程中会重复遍历整个数据集来搜索某个样本的邻域集合,因此处理大数据集的耗时较长,时间复杂度为O(n2),并需要较大内存和I/O开销。针对该问题,研究人员采用R-树[15]、KD-树[16]等空间索引方法降低邻域集合搜索所需计算次数来减少算法的时间开销,但空间索引方法实现较困难,且不适用于高维数据集。针对上述问题,本文提出一种基于改进邻域搜索技术的聚类算法。对轨迹进行分段预处理找出具有较高相似度的子轨迹段,通过遍历整个轨迹数据集将其分为不同的群组,采用群组搜索代替距离计算减少邻域对象搜索的计算次数,以缩短算法在海量轨迹数据集上的运行时间。1相关工作本文以TRACLUS算法中相似性度量方法为基础,通过改进DBSCAN算法来实现轨迹聚类,以下对DBSCAN算法的相关工作进行介绍。DBSCAN算法是一种基于密度的空间聚类算法,其本质是寻找密度相连点的最大集合,能有效滤除低密度点区域,将高密度区域划分为簇,并在具有噪声点的数据中发现任意形状的簇。研究人员基于DBSCAN算法的上述特性,对其不断改进与创新,并将研究成果应用于多个领域。DBSCAN算法需要人为确定半径参数ε和邻域密度阈值MinPts,这两个参数能否合理选取对聚类结果影响较大,然而目前DBSCAN算法无法在多密度情况下设置参数。对此,文献[17]提出一种初始点优化与参数自适应的改进DBSCAN算法,其能为不同密度的簇自适应设置不同参数,并优先对高密度簇进行聚类,即实现对多密度数据集的聚类。文献[18]通过改进DBSCAN算法得到EXDBSCAN聚类算法,可用于多密度数据集且只需输入一个参数。文献[19]结合DBSCAN算法和粒子群算法提出改进算法,其可基于数据集自动生成参数并有效进行空间热点识别。将DBSCAN算法及其改进算法应用于轨迹数据集的处理也是研究热点之一。由于大部分轨迹数据集规模庞大且数据量丰富,因此提高DBSCAN算法的计算效率非常重要。文献[20]提出一种可用于多密度数据集的RNN-DBSCAN聚类算法,利用逆邻域计数和权值剪枝方法使算法的时间复杂度由O(n2)降为O(n)。文献[21]开发出DBSCAN算法的分布式应用,在不影响聚类效果的情况下,使该算法在大规模数据集上实用性更强。文献[22]在提高DBSCAN算法实时性的基础上,使用KD-树和SparkGraphX分布式图处理框架,能显著减少数据集中样本之间距离的计算量,在大规模数据集上耗时更短。文献[23]结合MapReduce分布式计算框架和Hadoop平台,有效提高DBSCAN算法在大规模数据集上的运行效率。文献[24]提出一种用于处理时空轨迹数据的HDBSCAN算法,其考虑到传统聚类算法未考虑的轨迹先后性和内在层次,所得聚类结果更合理。文献[25]提出一种基于轨迹数据密度分区的分布式并行聚类算法,构建可分布式并行聚类的局部数据集,在不同服务器上执行DBSCAN算法进行局部聚类,然后对聚类结果进行合并和整合,通过并行处理提高了聚类分析效率。在上述基于DBSCAN的改进算法中,分布式图处理框架和KD-树等空间索引方法均较难实现,且空间索引树较难应用于高维轨迹数据集。为此,本文提出一种基于群组和密度的轨迹聚类算法TraG-DBSCAN,以DBSCAN算法为基础,使用群组划分方法减少聚类算法中邻域对象搜索所需时间,从而提高算法实时性,并利用邻域相似性度量提升轨迹聚类准确性。2本文算法2.1相关定义与符号定义1(轨迹距离)轨迹距离是评价轨迹样本之间相似性的度量值,是轨迹聚类效果的重要指标之一。两个轨迹样本之间距离越大,其相似度越小,反之亦然。本文采用文献[14]中的距离计算方法实现轨迹段之间的相似性度量,如图1所示。

102计算机工程2021年4月15日图1距离计算示意图Fig.1Schematicdiagramofdistancecalculation在图1中,两个轨迹段trai和traj之间的距离dist(traitraj)包含垂直距离d^、平行距离d和角度距离dθ3个部分,2相关计算公式如下:d^=tra^1+tra2^2tra^1+tra(1)^2d=min(tra1tra2)(2)dθ=traj´sin(θ)(3)dist(traitraj)=w^´d^+w´d+wθ´dθ(4)其中,w^中均设置为、w和wθ分别为d^、d和dθ的权重,在本文1/3。定义2(群组)群组是一条核心轨迹和若干条非核心轨迹组成的集合,核心轨迹与任意非核心轨迹之间距离不大于距离阈值ε。群组形状与最大半径为ε的圆类似。定义3(边界距离)边界距离Ts和Tw分别为群组中s和w的核心轨迹到非核心轨迹的最大距离,其值不大于ε。定义4(群组可达)设Cs和Cw分别为不同群组s和w的核心轨迹,当满足Cs-Cw≤Ts+Tw+ε时,称s和w为群组可达,群组si的可达群组集合记为R(si)。2.2算法框架在对轨迹数据集中一条轨迹进行聚类时,通常会忽略部分具有较高相似度的子轨迹段。因此,本文在对轨迹数据集聚类前,根据信息学中最小描述长度MinimumDescriptionLength,MDL)[14]原则对轨迹进行分段预处理。假设一条轨迹TRi=p1p2pleni,特征点集合points={p1p2pleni},计算公式如下:pari-1L(H)=∑lb(len(pc)j=1jpcj+1))(5pari-1cj+1-1L(D|H)=∑j=1∑{lb(d^(pck=cjpcj+1pkpk+1))+jlb(dθ(pcjpcj+1pkpk+1))}(6)其中,len(pcjpcj+1)为两点之间的欧几里得距离,d^和dθ分别由式(1)和式(3)计算得到。图2为TraG-DBSCAN算法流程,该算法包括两个阶段:1)通过2次遍历轨迹数据集获得基于子轨迹段的群组集合;2)对子轨迹段进行聚类,并利用群组集合减少聚类算法中搜索轨迹样本邻域集合所需时间。图2TraG-DBSCAN算法流程Fig.2ProcedureofTraG-DBSCANalgorithm2.3群组的建立在群组建立阶段,通过2次遍历整个轨迹数据集将其划分为不同群组,符合相应条件的群组之间相互可达。本,若群组数为1)在第1次遍历轨迹数据集时0或不存在任意一个群组的核心轨迹,对于每个轨迹样与该轨迹样本之间距离不大于2ε,则以该轨迹样本为核心轨迹建立新群组;若存在一个群组的核心轨迹与该轨迹样本之间距离不大于ε,则将该轨迹样本划分到此群组中;若上述两种情况均不符合,则将该轨迹样本标记为未处理轨迹,等待进行第2次遍历过程。遍历中被标记为未处理的轨迹样本2)在第2次遍历轨迹数据集时,对于每个在第,计算其与所产1次生群组中核心轨迹之间的距离。若存在一条核心轨迹与该轨迹样本的距离不大于ε,则将该轨迹样本划分到相应群组;否则以该轨迹样本为核心轨迹建立新群组。值得注意的是,以不同顺序处理轨迹样本会产生不同群组,但并不影响最终聚类结果。当一个新轨迹样本加入群组时,群组的边界距离需进行更新。通过计算两个群组中核心轨迹之间的距离可判断群组之间是否可相互抵达,当两者之间距离不大于两个群组的边界距离与ε之和时,这两个群组为可相互抵达。由于群组的边界距离在算法结束前才可确定,边界距离取最大值ε作为替代值,因此当两条核心轨迹之间距离不大于3ε时,这两个群组可相互抵达。以下分别为建立群组算法Group和CreateGroups(S,tra)函数算法的伪代码。算法1建立群组算法Group输入轨迹数据集D={tra1,tra2,⋯,tran},半径参数ε输出群组S={s1,s2,⋯,snumgroups}1.标记轨迹数据集中的所有轨迹样本为assigned2.S=null(

第47卷第4期俞庆英,赵亚军,叶梓彤,等:基于群组与密度的轨迹聚类算法中存在一个s使得‖Cs5.s=s∪{tra}−tra‖<ε6.S=S∪S为空orS中不存在任何一个s使得‖Cs−‖=

104计算机工程2021年4月15日算法5ExpandCluster(Q,C,εMinPtsS)函数算法≠∅2.M为Q中的第一个样本是噪声点4.C=C∪{M}6.Nε(tra)=FindNeighbours(tra,ε,S)|Nε(tra)|8.将邻域集合中的所有轨迹添加进≥MinPtsQ中还不是任何簇的成员11.C=C∪{M}13.将M移出队列le2.5时间复杂度TraG-DBSCAN算法的时间复杂度包含以下集,处理每条轨迹并获得待处理的子轨迹段1)轨迹分段处理的时间复杂度。遍历整个数据3个部分:,此部分时间复杂度为O(n)。整个子轨迹段集合进行群组初步划分2)基于子轨迹段建立群组的时间复杂度,未被划分到。遍历任何群组的子轨迹段在第2次遍历中进行处理。假设p为最初群组划分后剩余的子轨迹段数目,则基于子轨迹段建立群组的时间复杂度为O(n+p),由于pn杂度。3,)因此该部分时间复杂度也为该部分耗时主要集中在对每个子轨迹段的邻域基于划分的群组对子轨迹段进行聚类的时间复O(n)。搜索上。在对子轨迹段样本进行邻域集合搜索时,需计算该样本与所有可达群组中全部轨迹段样本之间的距离,以及该样本与数据集中所有其他轨迹样本的距离。如果未做任何改进,则该部分的时间复杂度为O(n2)。实际上,TraG-DBSCAN算法在该部分做了相应改进,需计算子轨迹段样本与可达群组中轨迹样本之间距离。此外,对于待处理的子轨迹段样本,算法会对该样本的可达群组进行相应的剪枝处理,从而减少时间开销。假设d为数据集中邻域集合搜索所需最大计算次数,则聚类阶段的时间复杂度为O(nd)。综上所述,TraG-DBSCAN算法的时间复杂度为上述各部分时间复杂度之和O(n)+O(n)+O(nd),其总体时间复杂度为O(nd)。对于可行的邻域参数ε,d通常很小且受到样本对象处理顺序的影响。3实验与结果分析本文在不同轨迹数据集上验证TraG-DBSCAN算法(以下称为本文算法)的有效性和准确性,将本文算法与TRACLUS算法的运行时间和聚类结果准确性进行对比分析。本文算法和TRACLUS算法均由Matlab语言实现,实验环境为AMDFX-7600PRadeonR74核处理器2016b运行平台,8GB内存。,Windows7操作系统以及Matlab3.1实验数据集本文实验采用BestTrack大西洋飓风轨迹数据集,其记录了大西洋飓风发生的时间、经纬度、最大持续风速和每6小时的中心气压。本文从该轨迹集中选取飓风发生的时间和经纬度轨迹数据进行实验。每条轨迹数据的存储格式T={Tidloc1loc2⋯locn},其中Tid为轨迹标识符,loci=(i=12n)为每个时刻的位置点,其中包含时间、纬度和经度信息。将1990年至2013年的大西洋飓风轨迹数据作为数据集DS1,该数据集包含152条飓风轨迹,共6557个轨迹点。将1851年至2013年的大西洋飓风轨迹数据作为30数据集DS2,该数据集包含855条飓风轨迹,3.2146共3.2.1评价指标个轨迹点。本文采用以下轮廓系数评价算法的聚类效果轮廓系数值越小说明样本1)计算样本ii到同簇中其他样本的平均距离更应被聚类到该簇。将a(i)称为样本a(:i),该i的簇内不相似度2)计算样本。ib到其他某簇Cj中所有样本的平均距离bij,将min{bi1i2⋯bik}(k为其他簇的个数)定义为样本3)样本i的簇间不相似度i的轮廓系数值记为,记为b(i)。s(i)=b(i)-a(i)(si)并定义如下:max{a(i)b(i)}(7)其中,若s(i)接近1则说明样本i聚类更合理,若s(i)接近−1则说明样本i更应分类到另外的簇,若(si)近似为0则说明样本3.2.2i在两个簇的边界上。为进一步验证本文算法的可行性总平方误差和,采用总平方误差和(TotalSumofSquaredError,TSSE)作为算法聚类效果的评价指标,其计算公式如下:numcTSSE=∑i=1(12´|Ci|T∑)2xÎCiT∑dist(TxTyyÎCi)(8)其中,numc表示簇的个数,|Ci|表示第i个簇中轨迹样本的个数,dist(Tx,Ty)表示轨迹样本Tx和Ty之间的距离。TSSE值越小,算法聚类效果越好。3.3参数设置人为选取的半径参数和邻域密度阈值通常不准确,需耗费较多时间确定合适的参数值。本文在参数设置上避免人为干预,采用启发式搜索方法[14]确定ε,再通过最佳的ε确定MinPts,相关计算公式如下:nH(x)=∑p(tra1ni)lb=-p(trai)lbpi=1p(tra(trai)(9)i)∑i=1p(tra|Nε(trai)|i)=∑n(10)|Nε(trai)|j=1

第47卷第4期俞庆英,赵亚军,叶梓彤,等:基于群组与密度的轨迹聚类算法105其中,Nε(trai)为轨迹样本trai的邻域集合,|Nε(trai)|为trai邻域集合中的轨迹样本个数。由式(9)和式(10)可确定使H(x)最小的半径参数,即最佳半径参数ε。在此基础上,计算数据集的邻域轨迹样本数的平均值avg|N(tra)|,MinPts的取值范围为[avg|Nε(trai)|+1]~[εiavg|Nε(trai)|+3]。3.43.4.1结果分析表1运行时间的对比和表2分别为不同半径参数和邻域密度阈值下本文算法和TRACLUS算法在DS1数据集上的运行时间。可以看出,2种算法的运行时间均随着参数值变化而改变,本文算法在数据集DS1上的运行时间远短于TRACLUS算法。表1不同ε值下2种算法在DS1数据集上的运行时间Table1RunningtimeoftwoalgorithmsonDS1datasetwithdifferentεvaluess算法ε=281ε=284=287ε=本文算法943293TRACLUS算法367ε3645969ε=29表2不同MinPts值下2种算法在DS1数据集上的运行时间Table2RunningtimeoftwoalgorithmsonDS1datasetwithdifferentMinPtsvaluess算法MinPis=6MinPis=7MinPis=8MinPis=9MinPis=10本文算法9329TRACLUS算法35443547352435343536表3和表4分别为在不同半径参数和邻域密度阈值下本文算法和TRACLUS算法在DS2数据集上的运行时间。可以看出,在规模较大的轨迹数据集上进行聚类时2种算法的运行时间均较长,本文算法在数据集DS2上的运行时间远短于TRACLUS算法,其在不同参数下时间开销更少。表3不同ε值下2种算法在DS2数据集上的运行时间Table3RunningtimeoftwoalgorithmsonDS2datasetwithdifferentεvaluesh算法ε=3190ε=205ε=本文算法3210TRACLUS算法17..37ε=39516..85ε=320016..53163..7317..12表4不同MinPts值下2种算法在DS2数据集上的运行时间Table4RunningtimeoftwoalgorithmsonDS2datasetwithdifferentMinPtsvaluesh算法MinPts=13MinPts=14MinPts=MinPts=MinPts=1.9151.9162.217本文算法2.12.0TRACLUS算法16.817.117.317.517.6由上述分析结果可知,本文算法在DS2数据集上运行时间较TRACLUS算法的减幅比DS1数据集更显著。由此可知,本文算法可有效地应用于海量的轨迹数据集。3.4.2图3聚类结果准确性的对比为不同半径参数和不同邻域密度阈值下本文算法和TRACLUS算法在DS1数据集上聚类结果的TSSE值对比情况。可以看出,本文算法的TSSE值较TRACLUS算法更小,其在DS1数据集上聚类效果更好。图32种算法在DS1数据集上聚类结果的TSSE值对比Fig.3ComparisonofTSSEvaluesofclusteringresultsoftwoalgorithmsonDS1dataset图4为不同半径参数和不同邻域密度阈值下本文算法和TRACLUS算法在DS1数据集上聚类结果的轮廓系数值对比情况。可以看出,本文算法的轮廓系数值较TRACLUS算法更接近1,表明其在DS1数据集上聚类结果更准确。图42种算法在DS1数据集上聚类结果的轮廓系数值对比Fig.4ComparisonofsilhouettecoefficientvaluesofclusteringresultsoftwoalgorithmsonDS1dataset图5和图6分别为不同半径参数和不同邻域密度阈值下本文算法和TRACLUS算法在DS2数据集上聚类结果的TSSE值和轮廓系数值对比情况。可以看出,2种算法的TSSE值和轮廓系数值随着半径参数和不同邻域密度阈值的变化相应改变,本文算法的聚类评价结果较TRACLUS算法更优。

106计算机工程2021年4月15日图52种算法在DS2数据集上聚类结果的TSSE值对比Fig.5ComparisonofTSSEvaluesofclusteringresultsoftwoalgorithmsonDS2dataset图62种算法在DS2数据集上聚类结果的轮廓系数值对比Fig.6ComparisonofsilhouettecoefficientvaluesofclusteringresultsoftwoalgorithmsonDS2dataset3.4.3由上聚类结果的可视化述对聚类结果准确性分析可知,在DS1数据集上,当ε=281且MinPts=10时,本文算法聚类效果最好,选择该条件下的聚类结果进行可视化显示。类似地,在DS2数据集上,当ε=190且MinPts=17时,本文算法聚类效果也最好,选择该条件下的聚类结果进行可视化显示。图7和图8分别为本文算法在DS1数据集和DS2数据集上的可视化聚类结果(彩色效果参见《计算机工程》官网HTML版)。图7本文算法在DS1数据集上的可视化聚类结果Fig.7VisualclusteringresultsoftheproposedalgorithmonDS1dataset图8本文算法在DS2数据集上的可视化聚类结果Fig.8VisualclusteringresultsoftheproposedalgorithmonDS2dataset4结束语本文提出一种结合群组和密度的聚类算法。根据MDL原则将一整条轨迹划分为若干条轨迹段,通过遍历轨迹数据集将所有轨迹段划分到相应的群组中,以减少聚类时邻域集合搜索过程中冗余的计算次数,最终利用群组和密度对轨迹数据集进行聚类。实验结果表明,与基于密度的TRACLUS算法相比,该算法运行时间更短且聚类准确性更高,运行时间的减幅随轨迹数据集规模的扩大而增加。后续将结合并行和分布式计算框架,进一步缩短该算法在海量轨迹数据集上的运行时间并提升聚类准确性。参考文献1]torydatamining:anoverview[J].ACMTransactionsonIntelligentSystemsandTechnology,2]LÜ2015Mingqi,6(3):1,-,XUZhenxing,coveryofpersonallysemanticplacesbasedontrajectorydatamining[J].Neurocomputing,2016,173(10):1142-3],ptiveapproachtoimageanalysis:imageformalizationspace[J].PatternRecognitionandImageAnalysis,2012,22(4):495-518.4]SHARAFMA,KOWALSKIBR,uctionofphylogenetictreesbypatternrecognitionprocedures[J].ZeitschriftFurNaturforschung,1980,35(5):5],MESCHINOGJ,NOWEA,eringknowledgefromdataclusteringusingautomatically-definedintervaltype-2fuzzypredicates[J].ExpertSystemswithApplications,2017,68(2):136-150.6]PIRAYREA,COUPRIEC,DUVALL,lust:cluster-assistedgeneregulatorynetworkinferencerefinement[J].IEEE/ACMTransactionsonComputationalBiologyandBioinformatics,2018,15(3):850-860.[[[[[[

第47卷第4期俞庆英,赵亚军,叶梓彤,等:基于群组与密度的轨迹聚类算法107[7]CHENGQiming,ZHANGQiang,CHENGYinman,-termphotovoltaicpowerpredictionmodelbasedonhierarchicalclusteringofdensitypeaksalgorithm[J].HighVoltageEngineering,2017,43(4):1214-1222.[8]WANGZengfeng,ZHANGHao,LUTinging,-basedlocalizationalgorithmforwirelesssensornetworksusingconnectivityandRSSrank[J].IEEEAccess,2018,[9]VISSER6:8426-8439E,,BUITELAARJK,ion-basedmassclusteringoftractographystreamlines[J].Neuroimage,2011,54(1):303-312.[10]GUOGongde,CHENLifei,YEYanfang,rvalidationmethodfordeterminingthenumberofclustersincategoricalsequences[J].IEEETransactionsonNeuralNetworksandLearningSystems,2017,28(12):2936-2948.[11]HEXiongxiong,GUANJunyi,YEXuanzuo,ty-basedandgrid-basedclustercentersdeterminationclusteringalgorithm[J].ControlandDecision,2017,32(5):913何熊熊-919,.(管俊轶inChinese),叶宣佐,等.一种基于密度和网格的簇心可确定聚类算法[J].控制与决策,2017,32(5):913-919.[12]ESTERM,KRIEGELHP,SANDERJ,ty-basedalgorithmfordiscoveringclustersinlargespatialdatabaseswithnoise[C]//Proceedingsok,USA:ACMPress,1996:226-231.[13]GAOQiang,ZHANGFengli,WANGRuijin,torybigdata:areviewofkeytechnologiesindataprocessing[J].JournalofSoftware,2017,28(4):959-992高强.(,in张凤荔Chinese),王瑞锦,等.轨迹大数据:数据处理关键技术研究综述[J].软件学报,2017,28(4):959-992.[14]LEEJG,HANJ,toryclustering:apartitionandgroupframework[C]//k,USA:ACMPress,2007:593-605.[15]GUTTMANA.R-trees:adynamicindexstructureforspatialsearching[C]//k,USA:ACMPress,1984:47-57.[16]PROCOPIUCO,AGARWALPK,ARGEL,-tree:adynamicscalablekd-tree[C]//ationalBerlin,Germany:SymposiumSpringer,onSpatial2003and:46Temporal-65.[17]DAIYangyang,LIChaofeng,yclusteringalgorithmwithinitialpointoptimizationandparameterself-adaption[J].ComputerEngineering,2016,42(1):203-209.(inChinese)戴阳阳,李朝锋,徐华.初始点优化与参数自适应的密度聚类算法[J].计算机工程,2016,42(1):203-209.[18]GHANBARPOURA,AN:anextensionofDBSCANtodetectclustersinmulti-densitydatasets[C]//gtonD.C.,USA:IEEEPress,[19]ANKITA,2014:edDBSCANusingparticleswarmoptimizationforspatialhotspotidentification[C]//PgtonD.C.,USA:IEEEPress,[20]BRYANT2018:,-DBSCAN:adensity-basedclusteringalgorithmusingreversenearestneighbordensityestimates[J].IEEETransactionsonKnowledgeandDataEngineering,2018,30(6):1109-1121.[21]MERKA,CALP,WOŹbutedDBSCANalgorithm-conceptandexperimentalevaluation[C]//Proceedi,Germany:Springer,[22]GAO2017:Xu,472GUI-480Zhipeng,.LONGXi,-DBSCAN:ahighperformanceDBSCANalgorithmbasedonK-DTreeandSparkGraphX[J].GeographyandGeo-InformationScience,2017,33(6):1-7.(inChinese)高旭,桂志鹏,隆玺,等.KDSG-DBSCAN:一种基于K-DTree和SparkGraphX的高性能DBSCAN算法[J].地理与地理信息科学,2017,33(6):1-7.[23]CHENZhihua,GUOJianming,algorithmclusteringformassiveaisdatabasedonthehadoopplatform[C]//Proceedingsof2017InternationalConferenceonIndustrialInformatics-ComputingTechno-logy,IntelligentTechnology,gtonD.C.,USA:IEEEPress,2017:[24]ZHANG25-28.D,LEEK,chicaltrajectoryclusteringforspatio-temporalperiodicpatternmining[J].ExpertSystemswithApplications,2018,92(2):1-11.[25]WANGJiayu,ZHANGZhenyu,CHUZheng,ctorydatadensitypartitionbaseddistributedparallelclusteringmethod[J].JournalofUniversityofScienceandTechnologyofChina,2018,48(1):47-56.(inChinese)王佳玉,张振宇,褚征,等.一种基于轨迹数据密度分区的分布式并行聚类方法[J].中国科学技术大学学报,2018,48(1):47-56.编辑宋圆

本文标签: 轨迹算法数据聚类群组