admin管理员组

文章数量:1533848

2024年4月5日发(作者:)

第18卷第6期

重庆邮电学院学报(自然科学版)

V01.18No.6

2006年12月Journal

of

ChongqingUniversity

ofPostsand

Telecommunications(Natural

Science)Dec.2006

文章编号:1004—5694(2006)06—0789—04

基于DPI和会话关联技术的

QQ语音业务识别模型和算法*

金婷,王攀,张顺颐,陆青莲,陈东

(南京邮电大学网络技术研究中心,江苏南京210003)

摘要:针对互联网即时通信软件一腾讯QQ的语音会话特征进行了深入的分析,研究如何基于DPI净荷深度检

测和会话关联技术来有效识别QQ语音业务,并设计出QQ语音业务的识另q模型和算法,原型系统在10

G电信IP

骨干网中得到了充分验证。

关键词:QQ;流量识别;净荷深度检测;会话监控

中图分类号:TP393.06文献标识码:A

引言

QQ通信机制研究

互联网技术的发展和普及,使传统的通信方式

1.1

QQ语音业务的识别现状

逐渐被网络通信所取代。利用通信软件,不仅可以

针对QQ和QQ语音业务的识别具有一定的难

进行文本聊天,也可以用语音或视频进行聊天,由于

度,原因如下。①QQ的通信协议不公开,且其中

使用方便且资费低廉,越来越多的人通过网络进行

部分信令使用了加密算法。②QQ的版本众多,升

远程实时会话[1]。在巨额利益的吸引下大量非法

级比较频繁,而且与多数软件不同的是,它客户端的

VoIP运营充斥着正规的电信市场,不仅导致合法运

升级往往伴随着协议相应的改变。③现今大部分

营商话务量流失,更打破了原有电信市场的公平竞

对QQ的研究集中在QQ登陆退出过程以及文本聊

争格局。因此非常有必要将互联网上VoIP业务纳

天交互方式上,鲜有对其语音过程的分析,所以可借

入良性控制的范畴凹]。

作为目前中国最为流行的即时通信软件之一的

鉴之处不多。④腾讯QQ采用端口伪装技术,使用

80端口;端口可随机配置;服务器有多个不固定的IP

腾讯QQ,虽然目前仅提供PC2PC的通话方式,但

由此带来的话务分流也对电信运营商造成了一定的

地址,难以做到完全控制。⑤QQ提供文本、数据、语

冲击,因此提供话音业务的网络运营商自然而然希

音、视频等业务,各种业务的会话特征均不相同,因此

望能够良性控制QQ的通话行为,即便不做控制,也

对服务器IP地址的“野蛮”封堵并不是解决问题的根

需要统计QQ语音业务所带来的话务分流比例。所

本办法,这会导致正常的QQ通信无法使用。

以,对QQ和QQ语音业务的识别及其良性控制,不

由此可见,采用传统的端口过滤、IP地址过滤

仅对电信运营商有重大意义,而且也有助于对其他

以及协议分析等业务识别方法很难识别出QQ的语

的即时通信软件进行监管[3]。

音过程,因此,必须另辟蹊径。

本文中,我们对QQ的通信机制进行了研究,包

1.2

QQ会话及QQ语音业务会话的净荷特征分析

括登陆认证、连接请求以及语音通信的各个过程,深

QQ会话:泛指用户登陆之后的所有QQ交互

入分析和概括了其交互过程中的净荷特征,并设计

行为,包括用户登陆、身份认证、文本聊天、语音通

实现了一种基于净荷深度检测(deep

packetinspec—

话、视频会话、3D游戏、退出等QQ交互过程。QQ

tion,DPI)和会话关联技术的QQ语音业务识别模

语音通话:特指QQ会话中的语音和视频通信过程,

型及其算法“],最后开发出实验原型系统并在电信

因此,一个QQ号码对应一个QQ会话,而QQ语音

IP骨干网中得到验证。通话则特指一个QQ用户同另一个QQ用户的语音

-收稿日期:2006—08—29修订日期:2006—10—11

基金项目:圆家“863”高技术研究发展计划资助项目(2005AAl21620)

作者简介:金婷(1981・),女,浙江台州人,硕士研究生,主要研究方向为计算机通信与IP网络技术,E-mail:wangpan@

njupt.edu.cn!张顺颐(1944一),男,江苏南京人,教授,主要研究方向为计算机通信网及IP网络技术。

万方数据

・790・

重庆邮电学院学报(自然科学版)第18卷

通信过程。

通过使用数据捕获和分析工具测试QQ分组发

现,QQ登录过程或连接请求过程中数据包格式分

为头部、内容和尾部3个部分,固定为:Ox02客户端

版本命令序列号QQ号码内容0x03,可得知各字段

长度。因此QQ会话具备一定的净荷特征,可根据

起始和末尾净荷特征Ox02及0x03,通过DPI机制

识别出QQ会话的分组。再根据请求登录令牌,识

别出数据包第8至第11字节为主叫QQ号码,以标

识一个QQ会话。并且通过测试QQ语音通信的交

互过程,发现语音连接建立时,也具有起始和末尾净

荷0x02/0x03的特征,之后,则采用类似SIP协议邙]

的通信交互机制建立语音会话[6]。因此可以采用

DPI机制和简单的协议分析技术来识别QQ的语音

会话。净荷特征匹配串为“SIP/user—agent:Ten—

cent—VQQ”,“SIP/reason=100’’等‘1

2.1

0|。

QQ语音业务识别模型和算法

QQ语音业务识别模型总体设计

本文中,我们设计了一种基于净荷检测和会话

关联技术的QQ语音业务识别系统,其总体设计框

架如图1所示。从图1中可以看出,系统分为4个

层面,从下往上依次是:数据采集层、协议分析层、流

量识别(业务感知)层和QQ语音业务应用层。

图1

Fig.1

QQ业务感知和QQ语音识别控制技术的总体框架

Framework

ofcontrol

technique

in

QQs

servicedetectionand

voiceidentification

(1)数据采集层。数据采集层面提供对于不同

链路的数据采集或复制技术,如100/1000

据完整、可靠地传送至上一层面(协议分析层)。

(2)协议分析层。协议分析层面将数据进行

TCP/IP协议解析,并且向上层提供足够的IP分组

头部和TCP/UDP的头部信息及必要的分组净荷

信息,以满足上一层(流量识别层)对业务的识别和

FE,

感知。

(3)流量识别(业务感知)层。流量识别层是整

个架构的核心层,主要根据下层(协议分析层)提供

的IP分组头部信息TCP/UDP的头部信息及其净

荷信息等特征有效识别出QQ业务,匹配失败的分

组则丢弃。该层主要包含QQ会话识别算法和QQ

语音会话关联算法。此外,还需采用合适的机制保

障识别算法灵活适应QQ业务特征的变化。其算法

ATM,SDH不同速率的采集或复制技术,以保障数

万方数据

第6期

金婷,等:基于DPI和会话关联技术的QQ语音业务识别模型和算法

・791・

采用正则表达式来表现QQ的会话特征和语音会话

特征,因此当QQ版本发生变化或者特征发生变化,

本算法只需要简单地修改正则表达式的特征配置文

件即可,无需重新修改代码和算法即做到快速高效

的更新。

(4)QQ话音业务应用层。QQ语音业务层对

于QQ语音业务的识别具有很广泛的意义和应用价

值。主要可以应用在:QQ语音业务流量统计分析;

QQ语音业务性能分析;QQ语音流量控制和呼叫

跟踪;QQ资费影响因子估算:QQ语音流量异常检

测;QQ语音信息安全监控。

2.2

QQ会话识别算法

QQ会话识别算法处理过程如图2所示,其具

体处理流程如下。

图2

QQ会话识别流程图

Fig.2

Flow

chartof

QQs

sessionidentification

①初始化哈希表。该哈希表用于存储QQ会话

SessionlD。该标识用QQ号码和其IP

②接收分组。

③根据QQ会话净荷特征进行DPI检测,以判

④判断该会话是否已经存在于哈希表中,如果

⑤保存QQ会话标识。Key为QQ号码,ele—

⑥转②。

QQ语音业务识别和会话关联算法

QQ语音业务识别和会话关联处理算法流程如

万方数据

图3

QQ语青业务识别和会话关联算法流程图

Fig。3

Flowchart

of

Qm

voice

identificationand

sessionassociation

algorithm

①接收分组。该接收过程同QQ会话过程是

同一过程,只是同一分组复制之后用于不同之处。

②根据QQ语音净荷类的SIP特性进行DPI。

如匹配成功,则转③;否则,丢弃分组,转①。

③将语音会话同QQ会话进行关联识别。由

于单一通过QQ语音净荷的特征分析并无法完全判

断该分组就是QQ语音会话分组,因此必须将该

QQ语音会话分组同已有的QQ会话进行关联检

测,如该QQ会话存在,则该QQ语音分组的判断将

极大可能是准确的。具体的关联过程是用该语音分

组中获取的QQ主叫号码作为key,到QQ会话哈

希表中查询,如查询出来的元素为一个IP地址,那

么证明该QQ会话是存在,转④;如果查询出来是

0,则该QQ会话不存在,于是丢弃分组,转①。

④保存和更新QQ语音会话信息。将QQ语

音会话的主被叫QQ地址和端口、主被叫QQ号码、

语音编解码类型、呼叫发起时间、呼叫结束时间等关

键信息保存。当有其他语音会话的分组到来的时

候,相应地更新相关信息,形成QQ的呼叫详细记录

CDR。重复过程,转①。

2.4会话关联算法的处理过程

在QQ语音业务的识别算法中,会话关联是个

很重要的过程,该过程采用的关联元素(关联会话)

标识为Association

Session

ID一(主叫IP地址,主

叫QQ号码)。采用会话调度器机制来确保QQ语

音会话的识别准确率。调度器可以采用定时轮询和

消息通知2种机制,来确保调度器知晓新增的QQ

语音会话。定时轮询的办法是指调度器每隔一定时

间查询是否有新增的QQ语音会话标识;另一种是

采用消息通知机制,当有新增的QQ语音会话时,就

发出消息通知调度器。前者效率较低,开销大,实时

标识,即QQ

地址两元组来表示,因为一个QQ号码只能对应于

一个IP地址,因此从存储和查找的效率来看,用哈

希表存储最合适。哈希表中所有的元素初始化为

0,即所有QQ号码对应的IP地址初始化为0。

断该分组是否为QQ分组,再判断该分组是否为

QQ会话的请求登陆令牌分组,如是,则获取QQ号

码,转④;如匹配失败,丢弃分组,转②。

是,则丢弃分组,转②;如果不是,转⑤。

ment为该QQ号码的登录IP地址。

2.3

图3所示。

・792・

重庆邮电学院学报(自然科学版)第18卷

性不够,但实现简单;后者效率高,实时性好,实现较

为复杂。通常采用第2种消息机制,以保证实时地

进行真正语音的比较。

类似软件的识别和监管具有一定的参考价值。

参考文献:

D-I

董莹,孙桂春,向群,等.利用腾讯QQ开展网

上实时咨询服务的实践[J].上海高校图书情

报工作研究,2005,2(58):31-33.

[2]

GAOLi—sha,LUO

Jun—zhou.Performance

3算法验证

根据本算法开发出的VoIP检测系统在中国电

信广西分公司的10G骨干网上得到了具体的验证。

系统采用分光方式将loG流量负载均衡分流至若

干台业务识别处理机上,业务识别处理机完成核心

算法的实现,从纷繁复杂的分组中提取、分析、识别

和关联出QQ的语音会话,每台业务识别处理机上

的平均流量为700MByte/s,峰值流量为近900

MByte/s。系统运行至今近6个月时间,平均每秒

识别出的QQ语音呼叫的频度为100条/s。通过实

际拨打测试,统计出QQ语音业务的识别准确率为

100%,并能很好地体现了算法的实施效果,验证了

算法的准确性。

Analysis

ofP2FLBasedVoIPSoftware

EB/

OL].(2006—03—05)[2006—07—26].http://

ieeexplore.ieee.org.

[3]

FENG

Cao,DAVID

Providing

Secure

A,BRUCEB,et

in

a1.

ServicesPeer—to-Peer

Communications

NetworkswithCentral

Se-

curity

Servers[EB/0L].(2006一07一07)[2006—

Levy,HAIM

Zlatokrilov.The

on

07—263.http://ieeexplore.ieee.org.

[4]

HANOCH

EffectofPacket

Dispersion

cationsinIP

Voice

Appli—

4结束语

设计了一种基于净荷深度检测和会话关联技术

的QQ语音业务识别系统模型。该模型主要阐述了

基于DPI技术的QQ会话识别算法和QQ语音会

话关联识别算法,其中的算法和模型均在实际的IP

骨干网上得到了验证。该模型和算法具有良好的可

扩展性和准确性,且易于与运营商相关的应用接口

对接,能够通过各种应用开发,便于电信运营商对于

VoIP业务进行监管。此系统的设计和实现对其他

[6]

[53

Networks厂EB/OL].(2006—04—

15)[2006—07—26].http://ieeexplore.ieee.

org・

SCHULZRINNE

H,ROSENBERG

J,HAN—

DLEY

M.SIP:Session

InitiationProtocol

[R].RFC2543,1999,3.

万敏,万晓榆.基于SIP的VoIP在下一代网

络中的应用[J].重庆邮电学院学报(自然科学

版),2003,15(4):84,87.(责任编辑:田海江)

Model

and

algorithm

of

on

QQ's

voiceserviceidentification

basedDPI

and

session

association

technology

of

Network

Technology,Nanjing

University

of

Postsand

JIN

Ting,WANG

Pan,ZHANG

Shun-yi,LU

Qing—lian,CHEN

Dong

(Research

Center

Telecommunications,JiangsuNanjing

210003,P.R.China)

Abstract:This

paper

aims

at

thevoiceandsessioncharacteristicsofTencent

QQ,which

iSthe

on

cur—

rentlypopular

Internet

instant

communication

software.It

focuseshow

to

effectively

identify

QQ

voiceservicebased

on

DPI(Deep

Packet

Inspection)and

sessionassociation

technology,then

identification.The

voiceidentification

it

presents

the

model

and

algorithm

of

QQ

voiceservice

system

iS

validatedin1

0G/B

IP

core

networkofChina

Telecom.

Key

words:QQ;traffic

identification;DPI;session

monitor

万方数据

本文标签: 语音识别业务算法分组