admin管理员组

文章数量:1530977

2024年3月9日发(作者:)

总第264期 

2011年第1O期 

计算机与数字工程 

Computer&Digital Engineering 

Vo1.39 No.10 

13 

P2P Web搜索中一种有效的查询路由策略 

王振华李妹芳 申德荣于戈 

(东北大学信息科学与工程学院沈阳 110819) 

摘要有效的多关键字查询路由是P2P Web搜索中的一个关键问题。文章提出一种基于收益代价比的查询处理方 

法。该方法基于DHT的P2P覆盖网,挖掘关键字的关联性和节点间覆盖度和重叠度。利用最小独立置换进行重叠检测, 

因此避免了对相同记录的冗余路由。实验证明了该方法显著减少了查询时间,同时提高了查全率和查准率。 

关键词P2P Web搜索;多关键字查询处理;最小独立置换 

中图分类号TP301 

An Effective Query Routing Strategy over P2P Web Search 

Wang Zhenhua Li Meifang Shen Derong Yu Ge 

(College of Information Science and Engineering,Northeastern University,Shenyang 11O819) 

Abstract Effective multi—keyword query routing is the key problem over P2P Web search.A novel query processing 

strategy based OD benefit cOSt ratio was proposed.A P2P overlay based on DHT has been built,and take into account of the 

correlation of keywords as well as the coverage and overlap among peers.Min-wise independent permutation was applied for 

overlap detection。SO the redundant routing tO the same result is avoided.The experimenta1 results show that the method im— 

proves the search performance greatly. 

Key Words P2P Web search,multi—keyword query processing,min-wise independent permutation 

Class Number TP301 

1 引言 

基于P2P的Web搜索具有分布性、扩展性、自 

和重叠度以提高搜索性能,并利用最小独立置换进 

行重叠探测,因此避免了对相同记录的冗余路由, 

提高了查询效率。 

组织性和负载平衡等特征,可以弥补传统集中式搜 

索引擎的诸多不足L1]。要实现一个真正实用的 

P2P Web搜索系统面临巨大的挑战l2],一个主要 

2 相关工作 

经典的查询路由算法如CORI: ,GLOSSE , 

还有基于统计语言模型的路由算法E引,这些都只适 

用于文档集合稳定且规模较小的情况,都没有考虑 

到属性间的关联或节点间的特性。ODISSEAE ]采 

的困难是如何有效地查找资源,也就是说高效地选 

择最有希望满足用户查询请求的那些节点。 

本文研究了基于P2P的Web搜索中的查询关 

键字分布和各种特征,关注于有效的多关键字查询 

路由,这是P2P Web搜索中的一个关键问题。基 

于DHT的结构化P2P网络,我们提出一种新的基 

于收益代价比的多关键字查询路由策略,有效地利 

用了两层的搜索引擎结构,其中全局搜索引擎可能 

会在发布元数据时造成网络通信拥塞。为了衡量 

节点与查询之间的相似度,PlanetP[ ]中提出一种 

基于逆节点频率(inverse peer frequency,IPF)的相 

用统计信息,挖掘关键字的关联性和节点间覆盖度 

关度排序算法。PlanetP基于无结构化的P2P网 

收稿日期:2011年3月31日,修回日期:2011年5月18日 

基金项目:国家自然科学基金(编号:60973021,61003060)资助。 

作者简介:王振华,男,博士,讲师,研究方向:分布式数据管理。李妹芳,女,硕士研究生,研究方向:分布式数据管理。 

申德荣,女,教授,博士生导师,研究方向:Deep Web。于戈,男,教授,博士生导师,研究方向:分布式数据库。 

14 王振华等:P2P Web搜索中一种有效的查询路由策略 第39卷 

络来传播节点集合的信息,但是Peer的节点数目 

有限。MINERVAE ]是一个基于DHT覆盖网络构 

建的P2P Web搜索引擎。MINERVA维护节点集 

合统计信息的全局索引信息,提出了一种采用统计 

方法评估各数据集之间的重叠关系来进行数据集 

选择的算法。 

3 P2P Web搜索面临的挑战 

在P2P web搜索中,基本的功能就是找到那 

些拥有高质量查询结果的节点。高效的Peer路由 

机制是P2P Web搜索的核心,要通过P2P网络中 

的本地数据集合的统计概要信息来选择最优节点。 

另一方面,对于一个给定的关键字,是通过关键字 

来组织节点路由的。因此,在查询处理之前,每个 

节点向全局路由发布一个关于每个数据项在它本 

地索引中的概要信息。利用DHT来路由负责该 

数据项的目录节点,因为它维护了在整个网络中的 

所有概要信息的节点列表。 

多关键字查询处理是P2P Web搜索系统中的 

常见问题。当一个节点发出一个多关键字查询时, 

要对每一个关键字分别执行DHT上的查找操作 

以联系目录节点,然后将多个结果进行合成、排序, 

返回给用户,查询将被转发到最有可能提供相关结 

果的节点。 

在该方法中,需要很多回合的查询传送,代价 

很大。另一个问题是它完全不考虑关键字间的关 

联和节点之间的覆盖重叠,这可能导致查询结果不 

准确。考虑一个包含3个关键字的查询Q一{t , 

t ,t。)。假定节点P 有大量的数据项包含这些关 

键字,但没有一个数据项包含所有这些关键字。由 

于在这种方法中,查询处理都是独立执行的,因此 

仍然会认为P 是一个包含相关信息的节点,而事 

实上,P 并不满足需要。 

4基于收益代价比的查询处理 

4.1相关定义 

针对P2P Web搜索中多关键字查询处理面临 

的挑战,本文提出基于收益的多关键字查询处理策 

略,它考虑了关键字问的关联和节点间的关系来提 

高查询性能。 

在进行查询路由时,我们的目标是找到结果质 

量高且通信代价小的节点,为此,我们将收益代价 

比作为衡量的标准。收益代价比表示为: 

B enef

it

r—

一 

幽 (1) 

L 0S£ 

exec tz0竹COSt 

其中Benefit表示收益,由结果质量决定。Cost表 

示执行代价,主要考虑带宽等因素。为计算收益代 

价比,我们给出如下定义: 

定义1关联度:给定两个关键字t 与t,,则t, 

与t 之间的关联度Cot( ,t,)定义如下: 

Cor(ti, )一 (/ --ti)(/ ,一 )/(n--1) ,仃,

, 

∑ /n 

=== 

t n (2) 

其中,-厂,

是节点户 中关键字t 的频度,n是节点的 

数量,t 是关键字t,的频度均值, 是t,的标准差。 

该定义可以很容易地扩展到多个关键字上。为了 

简化,我们在以下的定义中用COF(Ut,)来表示多个 

关键字的关联度。 

以下定义均是基于关键字的关联度的基础上 

计算得来。 

定义2覆盖度:每个节点P 对于一个查询Q 

{tl,t2,…,£ }的覆盖度coy(P ),指对于查询Q 

返回的结果属于节点P,的概率,表示为 

cov(P )===P(P lQ) 

一 

(L厂(f口. f)*cor(U ,t r)}(3) 

IG{1,…,m} 七 t 

1<【I{ 

其中,L厂(f n t {)是关键字同时在P,中出现的概 

率,cor(U t,)是它们的关联度。因此,通过探测关 

键字间的关联,可以处理原始查询策略中存在的问 

题。由于每个节点通常只提供结果的一个子集,覆 

盖度表明每个节点覆盖查询Q的结果的程度。 

定义3重叠度:考虑两个数据项集合,S 与 

s,,每个数据元素由唯一ID标识,这两个集合的重 

叠度被定义为lS nS l,即交集的势 

 1S n S,I—J S I+J S l~I S U S J (4) 

由于要考虑多节点的重叠情况,我们利用 

Poincar4和Sylvester筛选公式,式(4)可以被扩展为: 

 IS I一∑(一1)抖 ∑ }ln S I(5) 

l J {1,…,”) 

iII= 

其中, 是节点个数。因此,假定P 和PJ分别包含 

数据集S 和S ,定义P 和其它节点间的重叠度 

overlap(P )用如下公式: 

overlap(Pi)一 lSi

f] s l (6) 

1Gf1.1…, } Jc ’J 

 lJI一"一1 

注意覆盖度指的是节点与查询之间的关系,而 

重叠度指节点之间的相互关系。对于一个查询Q, 

我们想要获得对Q具有高覆盖度并且节点间具有 

2011年第1O期 计算机与数字工程 

低重叠度的节点。因此,节点的收益表示为: 

1 

是不存在的。然而,可以通过随机线性变换(ran- 

(7) B fit(P )一cov(P,) 

dom linear transformation)来近似最小独立置换。 

给定m个节点,应用最小独立置换进行重叠 

4.2查询处理过程 

探测的工作过程如下: 

1)使用线性哈希函数计算一个随机的置换, 

然后排序哈希值。哈希函数形如h ( )一(n *z+ 

首先根据DHT从全局索引目录中能够得到 

所有包含某一个关键字的节点列表,通过交集运算 

能够得到包含所有查询关键字的节点列表。这就 

b )mod k,其中是是一个大的素数,以 ,b 为随机选 

择的整数。这随机生成的 对( ,6)值,构成了 

个哈希函数。 

得到了能够满足查询的初始节点集合。 

出于性能的考虑,为了节省带宽,要对初始节 

点集合进行修剪,目录节点对每个关键字只返回最 

优的节点,生成备选节点集合。 

但这仍然可能生成很大的节点集合,最后,计 

算备选节点集合中各节点的收益代价比,根据收益 

代价比评估备选节点,从中选择k个最优的节点。 

4.3重叠探测 

在大规模网络环境下,由于P2P系统中节点 

的自治性,查询返回的结果列表中的节点相互之间 

通常具有高度的重叠性,因此节点返回重复结果的 

概率很大,重复的结果是无用的,导致了带宽的浪 

费,这不是我们希望得到的。例如,当节点发起查 

询,查找某歌手最近一年的歌曲,通常我们更希望 

得到互补的结果,而不是相同的结果。 

因此,我们要考虑数据集之间的重叠关系。然 

而,两节点之间的重叠度很难得到,我们可以利用 

最小独立置换(Min—wise Independent Permuta- 

tion,MIP)方法进行重叠探测,估算节点间的重叠 

度。最小独立置换的定义如下: 

定义4最小独立置换:令s 为[ ]上的全排 

列,如果置换集合F S 对于X j”l, ∈X,随 

1 

机选取丌∈F,有Pr(min{rr(X)}一7【( ))一 ,则 

I A l 

称F是最小独立置换。其中,Pr表示成为最小元 

素的概率。 

MIP的原理是:通过散列函数丌对集合X的 

映射,使集合X中的每一个元素 的散列值7r(z) 

一min(7c( 】),7【( 2),…,7【( ))的概率相等,丌为 

置换函数。即在随机置换的情况下,每个元素成为 

最小元素(即位置最小处的值)的概率是相同的。 

可以采用集合中对应位置的元素相等的数量来估 

算相似度,MIP能够以很小的错误率和合理的空间 

及带宽提供评估集合相似度。 

可以通过采样的方法估算两个集合的相似度, 

即计算二者之间的Jaccard距离。文献[9]指出,由 

于无法做到随机均匀地选取,因此满足条件的置换 

2)获得数据项有序集合的m个随机置换。 

3)使用 维的MIP评估集合中的两两相似 

性。统计两个向量拥有相同位的位置数量,然后除 

以 。 

4)对m个置换中的每一个置换,应用MIP确 

定最小的哈希值,把它存储在m维的向量中,因此 

获得这些随机置换中每一个置换的最小的集合元 

素。 

Hash Sketches[9_和Bloom Filter[ ]方法也可 

以用于重叠探测,然而它们的不足之处在于所有的 

hash sketch必须具有相同的比特位长度或者所有 

的过滤器集合必须大小相同,这在多关键字查询处 

理情况下是一个很大的限制。而采用最小独立置 

换时,对于两个最小独立置换向量,大小分别是m 

和m ,我们能够处理min(m ,m:)置换。因此,我 

们使用MIP进行重叠探测,确定要返回给查询发 

起节点的结果,通过这种方式提高搜索质量。 

5 实验分析 

本文模拟了1000个节点,实验数据集是利用 

Wikipedia字典上的文档子集,文档总数i0000个。 

我们比较了基于收益代价比的多关键字查询 

处理方法(BCR—Method)和基本方法(DHT—Meth— 

od)。比较了两种方法的时间代价以及查准率,实 

验结果如图1和图2所示。结果表明BCR-Meth— 

od具有更好的性能。 

1 0 

600 

jl三 R—*-BC— M f/et ho d 三  

c 0 8 

0 

,r 

● 

8 400 

06 

 

O4 

一 

l 200 

/一 一 ——.一 

0 2 

O 

0 20 40 60 80 

O 

三 } 

Number of results 

图1时间代价比较 图2查准率比较 

我们评估了在不同节点数量和返回结果的情 

况下,不使用最小独立置换与使用最小独立置换检 

(下转第179页) 

2011年第1O期 计算机与数字工程 179 

结合针对标牌行业进行标牌特殊图形的AutoCAD 

二次开发,拓宽了AutoCAD二次开发的范围,改 

进了AutoCAD的绘制方法对特殊图形不能快速 

1-4]于萧榕,郭昌言,陈刚.结合Objectarx和C进行Auto— 

CAD二次开发框架的研究EJ].科学技术与工程,2010 

(20):5085~5090 

获取参数的问题,不能利用参数化的方法绘制并记 

录到扩展数据集中的问题,解决特殊图形的绘制定 

位不精确的问题,减少了绘制时间,提高了工作效 

率,保证了标牌制作质量。 

参考文献 

[5]孙江宏,丁立伟,米洁.AutoCAD ObjectARX开发工具 

及应用[M].北京:清华大学出版社,1999 

-I6]薛长健,黄靖.AutoCAD 2000高级使用及开发[M].北 

京:人民邮电出版社,2000:413 ̄496 

E7]于萧榕.基于ObjectARX的标牌印刷分色拼版的研究 

[J].科学技术与工程,2011(2):383 ̄387 

Eli王大鹏,张立文,张国梁,等.ObjectARX中结合MFC 

开发AutoCAD ARX应用程序[J].计算机辅助工程, 

2001,10(4):55~58 

E8]李长勋.AutoCAD ObjectARX程序开发技术FM].北 

京:国防工业出版社,2005 

[9]杜刚,刘东学,张磊.基于ObjectARX的AutoCAD二次 

开发及应用实例[J].机械设计与制造,2004(3):30 ̄32 

[1O]杜立,赵韩,董玉德,等.基于ObjectARX齿轮设计系 

统的开发与研究[J].机械设计与制造,2008(12):75~ 

77 

[2]童时中,李平.二次开发是CAD取得实效的关键环节 

EJ].电子机械工程,1999(4):64 ̄68 

f3]赵雪.中文AutoCAD 2006标准教程[M].西安:西北工 

业大学音像电子出版社,2005:3~10 

乖 秘 石 乖 乖 尔 币 不 矫 铞 

(上接第15页) 

索到重复结果的数量。图3显示了重复结果相当 

多,是不可忽略的,因此重叠探测对于获得更好的 

tent search:give the web back to the people E c]// 

IPTPS.Santa Barbara USA。2006 

结果质量很有必要。 

】6 

I-3]Callan J.P.,Z.Lu,w.B.Croft.Searching distribu— 

ted collections with inference networks[C]//SIGIR. 

New York:ACM Press,1995:21~28 

14 

E4]L.Gravano,H.Garcia-Molina,A.Tomasic.Gloss: 

12 

鼍1o 

{ 

 ̄4

text—source discovery over the internet[J].ACM 

Trans.Database Syst.,1999,24(2):229~264 

-82 

E5]L.Si,R.Jin,J.Callan,et a1.A language modeling 

framework for resource selection and results merging 

童6 

主4 

2 

0 

[C]//CIKM.New York:ACM Press,2002:391 ̄397 

[6]T.Suel,C.Mathur,J.wu,et a1.Odissea:A peer- 

lO 20 3O 40 50 60 70 80 

to-peer architecture for scalable web search and infor— 

Number of queried peers 

mation retrieval[R].Technica1 report TR-CIS-2003— 

01,Polytechnic Univ.,2003 

图3重叠探测 

6 结语 

本文研究了基于P2P的Web搜索中的查询关 

键字分布和各种特征,关注于有效的多关键字查询 

路由,这是P2P Web搜索中的一个关键问题。我 

们提出了一种新的基于收益代价比的查询处理策 

略,应用最小独立置换进行重叠探测。实验结果表 

[7]F.M.Cuenca—Acuna,C.Peery,R.P.Martin,et a1. 

PlanetP:Using Gossiping to Build Content Addressable 

Peer-to-Peer Information Sharing Communities[R]. 

Technical Report DC T1 487,Dept. of Computer 

Science,Rutgers University,2002 

 l8 I M Bender,S.Miche1,P.Triantafillou,et a1.MI— 

NERVA:collaborative P2P search[C]//VLDB.New 

York:ACM Press,2005:126341266 

明,该方法能够提高查询性能。 

参考文献 

[9]A.Z.Broder,M.Charikar,A.M.Frieze,et a1. 

Min-wise independent permutations[C]//STOC.New 

York:ACM Press,1998:327~336 

[1]方启明,杨广文,武永卫,等.基于P2P的Web搜索技 

术¨J].软件学报,2008,19(10):2706--2719 

[1O]M.Mitzenmacher.Compressed Bloom filters[J]. 

IEEE/ACM Transactions on Networking,2002,10 

(5):604~612 

E2]Bender M,Michel S,Triantafillou P,et a1.P2P con 

本文标签: 节点查询关键字重叠集合