admin管理员组

文章数量:1534841

2024年4月26日发(作者:)

随着网络通信和多媒体技术的发展,人们已不满足简单的语音和文字通信,希望

集语音、文字和图像于一体的多媒体通信。多媒体通信是继电报,传真,电话之后新

的通信技术。视频会议系统是一种应用网络技术和音频视频编解码技术来实现虚拟会

议的多媒体通信系统,能够使地理上分散的用户在网络上通过视频,声音,文本等信

息流进行交互式的交流。

由于分组交换的IP网络特别是Internet的飞速发展,与IP有关的技术也取得了

巨大的发展。基于IP交换网络的视频会议系统的实现由于其成本的低廉,交互性强

大,多点共同参与的特点和优点取代了传统的电视,电话会议,成为了人们通过远程

进行会议交流的理想选择。

本文围绕“基于IP网络的视频会议系统”这一课题展开的。视频会议系统采用

RTPRTCP协议作为媒体控制协议,音频采用G723,视频编码采用H.323标准,实现

了局域网内点对点的视频会议系统。

本文主要阐述以下几个方面的内容:

① 分析了视频会议系统的发展,应用及意义。

② 分析并研究了视频会议系统使用的关键技术。

③ 分析并研究了视频会议系统的实现标准。

④ 实现了局域网点对点视频会议系统的总体设计。

⑤ 阐述了视频会议系统的实现。

关键字:视频会议系统;H.323协议;组播;RTPRTCP协议

I

ABSTRACT

With the development of the technology of multimedia and networking,text and

void communication via Internet can not meet the requirements of the people. People

need a new communication that can transmit text,void and video. It developed

after telephone,telegraph and fax. Now video conference,an application of

multimedia communication,applies networking technology and multimedia codec to

realize a virtual conference. Through video conference,people who are not in the same

place can communicate freely and effectively with each other.

As the rapid development of the IP packet switching networks especially the

Internet,the technology about IP common with the characteristics and telephone

conference. It ideal choice exchange through the long meeting.

In this paper talk about“Research of IP-based network video conference system”.

The video conference realized a Point-to- Point video conference system using

RTPRTCP as media control protocol,G.723 standard as audio codec,H.323 standard

as video codec.

This paper mainly describes the following aspects:

① Asalysis of the application and significance of the video conference system.

② Asalysis of key technologies of video conference systems.

③ Asalysis and study about the standard of the video conference system.

④ A LAN design of a point-to-point video conference system.

⑤ Realized a video conference system.

II

Keywords: video conference system; H.323 protocol; multicast; RTPRTCP

目 录

第1章 绪 论

.................................................................................................................. 1

1.1背景 ............................................................................................................................ 1

1.2视频会议系统的概念 ................................................................................................ 1

1.3视频会议的发展及发展趋势 .................................................................................... 2

1.4视频会议系统的现状 ................................................................................................ 3

1.5研究视频会议系统的意义 ........................................................................................ 4

1.6本文主要的研究内容 ................................................................................................ 4

第2章 视频会议系统的技术研究

........................................................................... 5

2.1视频会议系统的类型和组成 .................................................................................... 5

2.1.1视频会议系统的类型 ...................................................................................... 5

2.1.2视频会议系统的组成 ...................................................................................... 7

2.2 H.323标准分析 ......................................................................................................... 7

2.2.1 H.323协议的概念 ........................................................................................... 7

2.2.2视频会议系统的基本框架结构 ...................................................................... 8

2.2.3 H.323协议栈详细描述 ................................................................................... 9

2.2.4 H.323组件 ..................................................................................................... 10

2.4本章小结 .................................................................................................................. 17

第3章 视频会议系统使用的关键技术

............................................................... 17

III

3.1多媒体信息处理技术 .............................................................................................. 18

3.1.1多媒体压缩技术 ............................................................................................ 18

3.1.2音频编解码技术 ............................................................................................ 18

3.1.3视频编解码技术 ............................................................................................ 19

3.2网络技术 .................................................................................................................. 19

3.2.1 RTPRTCP协议 ............................................................................................ 20

3.2.2组播技术 ........................................................................................................ 21

3.2.3 QOS保障技术 .............................................................................................. 21

3.3信息安全 .................................................................................................................. 22

3.4流媒体传输技术 ...................................................................................................... 22

3.4.1流媒体的概念 ................................................................................................ 22

3.4.2实时传输协议RTP ....................................................................................... 23

3.4.3实时传输控制协议RTCP ............................................................................ 23

3.5.1 NAT技术与NAT穿越 ................................................................................ 24

3.5.2 NAT穿越的主要技术 ................................................................................... 25

3.6 本章小结 ................................................................................................................. 26

第4章 视频会议系统的总体设计

......................................................................... 26

4.1 局域网内的点对点视频会议系统结构 ................................................................. 26

4.2 视频会议系统软件结构 ......................................................................................... 27

4.3 软件体系结构设计 ................................................................................................. 27

4.4 系统的模块设计 ..................................................................................................... 28

4.5 系统的工作流程 ..................................................................................................... 28

4.6 本章小结 ................................................................................................................. 32

第5章 视频会议系统的实现

.................................................................................. 33

5.1基于DirectShow视音频的采集的实现 ................................................................ 33

5.1.1 DirectShow技术 ........................................................................................... 33

5.1.2 视音频采集模块 ........................................................................................... 35

5.2控制和通信模块的实现 .......................................................................................... 38

IV

5.2.1 H.225.0呼叫信道信令的实现 ...................................................................... 38

5.2.2 H.245.0控制信令 .......................................................................................... 39

5.3视音频传输模块的实现 .......................................................................................... 41

5.3.1 RTPRTCP处理模块 .................................................................................... 42

5.3.2 RTP传输视音频信息流的实现 ................................................................... 42

5.4本章小结 .................................................................................................................. 43

结 论

................................................................................................................................... 43

参考文献

............................................................................................................................ 44

致 谢

................................................................................................................................... 46

V

第1章 绪 论

1.1背景

随着Internet和视频压缩技术的飞速发展,使得Internet网络成为信息交换和传

输的重要手段之一,简单的数据计算、数据存取、数据访问无法满足政府,教育,企

业等的需求,希望实现数据,音频,视频的双向互通,进行实时的多方位的信息沟通,

因而,以IP网络为基础的多媒体视频会议已成为主要的发展趋势,受到国内外市场

的普遍关注

[1]

。个人计算机的普及、微电子技术和多媒体技术的飞速发展、综合业务

数字网的建立及宽带综合业务数字网的研究发展,都有力的推动了视频会议的发展。

现代宽带网络技术的发展迅速,基于IP网络的视频会议系统正成为会议系统发

展的主流

[2]

。当前的多媒体会议系统大多基于硬件插卡方案,以满足实时应用的要求,

但存在很大缺点,它需要额外的资金购买硬件,而且一旦出现新的协议或算法,就必

须更换硬件,因此基于IP交换网络的视频会议系统的实现由于其成本的低廉,交互

性强大,多点共同参与的特点和优点取代了传统的电视,电话会议,成为了人们通过

远程进行会议交流的理想选择。基于IP协议的交换技术的发展,使传统电信业务和

互联网数据业务的整合成为可能。它能为用户提供直接,全面的沟通交流,并能节约

时间、降低成本、提高生产率,在社会性的信息交流中了发挥了巨大的沟通作用。

1994年当时的Intel公司执行总裁Andy Grove曾预言:“到2000年将令每台PC

具有视频会议系统”,虽然现在并没有实现Grove在1994年的超前预言,但现在看来,

不容置疑的是:视频会议是当今火热的宽带网上的最有代表性的应用之一

[3]

1.2视频会议系统的概念

视频会议系统,是指两个或两个以上不同地方的个人或群体,通过传输线路及多

媒体设备,将声音、影像及文件资料互传,达到即时互动的沟通,以完成会议目的的

系统设备

[4]

。视频会议系统旨在为分散于不同地区的多个用户提供一个很好的讨论环

境,使人们足不出户就可与远在天涯的朋友展开讨论,举行远程会议。视频会议系统

多媒体信息的强大表现力和计算机的交互、管理能力极大地方便了与会者

[5]

。在会议

1

发起时,计算机负责用户间的联络(包括发送邀请、处理回执等);在会议进行中,可自

动处理用户的加入和退出,为用户灵活地参加会议提供了方便。这种会议系统不仅能

实时地传输与会者的声音与影像,产生面对面讨论的感觉,而且可以将会议上讨论的

内容与这些信息的传输结合起来,便于计算机完成一些事务性工作,减轻与会者的负

担。在会议进行过程中,用户还可以通过数据库查找会议中要用到的资料,建立会议

的目录,记录会议的进展,以便归档保存,供以后查询。

视频会议系统不仅为面对面交谈提供手段,而且有效支持群体协作,主要表现在

以下方面:

① 提供共享工作空间:提供足够的视频音频通信能力,使人们尽量以面对面方式进

行交互;在交互过程中,控制和协调相关用户之间以及用户与系统之间的关系。

② 提供共享信息空间:人与人之间交互式数据交换与操纵;同时支持个人与群体工

作,并且可以在两者之间交换信息

[6]

1.3视频会议的发展及发展趋势

视频会议大致经历了以下几个发展阶段

[7]

第一阶段,20世纪60年代至80年代的模拟技术视频会议。1964年,世界上最

早的模拟技术可视电话——Picture Phone MOD-I诞生于美国贝尔实验室,采用了图

像和语音分时传输的方法,传输带宽为300~3400Hz。进入20世纪70年代,由于数

字式传输的出现,传统视频会议系统所用模拟信号的采样和变换方法得到极大改善,

数字信号处理技术逐渐成熟。对数据压缩的研究生成了视频会议产品的核心技术——

CODER(CoderDecoder)。

第二阶段,20世纪90年代初至1995年基于ISDN的数字视频会议。这一阶段的

前期是基于SDH、DDN网的视频会议,后期主要是基于ISDN网的视频会议。20世

纪90年代初期,第一套国际标准H.320获得通过,不同品牌之间的兼容性问题得到

了解决。

第三阶段,1995年以后基于IP网的数字视频会议。20世纪90年代后期,随着

PC的快速升级,数据存储和处理能力越来越强,信息压缩技术发展快速,进一步推

动了视频会议系统的发展。目前视频会议技术正向Internet网络上的多媒体会议方向

发展。

2

视频会议系统未来的发展趋势有以下几点:

① 编解码方式由硬件向软件转化。由于计算机处理速度和附属板卡的处理速度

提高,许多需要专用设备进行的数据处理过程可以交由计算机及其内置的通用板卡来

完成,在效果上没有太大的区别

② 系统协议类型从H.320向H.323转化。在初期,由于IP协议不是很普遍,基

于ISDN线路,符合H.320协议的产品占主要比例。随着近几年IP协议的普遍应用和

互联网的高速发展,特别是对于宽带网络的普及,符合H.323协议的系统自2000年

开始占有的比例急剧上升。估计在未来几年年,基于H.323协议的系统将会取代H.320

产品。

③ 流媒体技术越来越多的应用于视频会议系统中。目前,流媒体技术与IP视频

会议一样受到重视,两者之间的相互融合正在开创广阔的应用空间。

④ 虚拟会议(Virtual Space Teleconferencing System,VST)将会出现。虚拟会议

是会议系统的高级形式。它与视频会议系统中采用的独立视频窗口不同,它提供了一

种虚拟会议环境,多个与会者的图像统一出现在虚拟会场中,表现形式是运动参数驱

动的运动人脸模型。系统中的重要部件MCU将接收到的音、视频码流进行混合,在

编码状态下生成虚拟会议室,并将混合后的业务流传送给每个与会者。这种系统需要

VR技术支持,涉及到VST显示系统,视频对象提取,三维人体建模,空间交互模型

等关键技术,是未来的高级会议形式。

⑤ 组播技术的运用。随着下一代互联网的研究开发,组播技术将会越来成熟,

由此会使得基于组播的视频会议更加的普及,节省大量的带宽。

1.4视频会议系统的现状

国外对视频会议的研究开发远远早于中国,第一代视频会议产品的可视电话是由

美国贝尔实验室1964年研制出来,我国第一台拥有自主知识产权的ISDN可视电话

2001年7月才研制成功.随后视频会议提供厂商加大了视频会议终端产品的研发,众

多国际品牌脱颖而出,以WEBEX为代表的运营平台提供商也给视频会议市场注入了

新的活力。在美国,视频会议己渗透到政府、商业、金融、交通、服务、教育等各行

业,其中远程教育和远程医疗占了相当大的比重。在这其中,美国政府对信息化建设

起到了非常重大的推动作用,在远程教学方面,诸多美国大企业利用视频会议系统为

3

员工提供培训,而MRR和Duke等顶尖大学也都在远程教育方面进行了很大投资.911

事件之后,美国出现了企业集团、个人大规模采购与使用视频会议系统的热潮,据调

查显示,有91%的商业企业倾向于采取视频会议的工作方式

[8]

中国的视讯业发展已有10年的历程。发展之初的视频会议系统只是针对政府、

金融、集团公司等高端市场,主要在专网中运行,且造价不菲,预算往往高达百万、

千万元。受2003年SARS的影响,中国视频会议系统市场近两年突破了以往的平缓

发展局面,开始步入稳步快速发展阶段。混网及企业公网市场代替基于专线网络的视

频会议系统占了主流地位。2004年,基于混网和企业公网的产品占到了68.8%的比例,

2005年,这一比例将高达87.5%,成为市场主流。赛迪顾问公司去年年底的调查显示,

我国在政府、金融、能源、通信、交通、医疗、教育等重点行业机构中视频会议设备

的用户比例达到了66.3%,视频会议系统己经成为了我国行业信息交流和传递的重要

手段。计世资讯 (CCW Research)预测,未来3年内,视频会议系统将以复合年平均

增长率26.1%的速度增长。

1.5研究视频会议系统的意义

基于IP网络的视频会议系统是一种集音频、视频、数据为一体的多媒体网络通

信的应用,是人们继单一媒体实现网络上的实时通信后对多媒体实现实时通信提出的

要求。实现IP网络上的视频会议系统有着社会和技术发展两方面的意义。从它的技

术发展意义来讲,研究IP网络上的视频会议系统促进了网络中多媒体信息的编码压

缩解压技术,同时还促进了IP网络对媒体的实时传输技术、多点传输技术和业务保

障技术的不断发展。

从产生的社会效益来讲,视频会议可以节省大量的会议费用,但实现IP网络上

的视频会议系统不仅仅只是提供给人们一个可以进行异地实时会议的工具,还可以在

这个基础上增开网络实时通信的增值服务。除了上述视频会议系统的类型外,还可以

在办公自动化、紧急求援、现场指挥调度等许多方面发挥作用,因此有较好的发展前

景。

1.6本文主要的研究内容

本文主要阐述以下几个方面的内容:

4

① 分析了视频会议系统的发展、应用及意义。

② 分析并研究了视频会议系统类型、组成及相关标准。

③ 分析并研究了视频会议系统使用的关键技术。

④ 给出了视频会议系统的总体设计。

⑤ 分析研究了视频会议系统的实现。

第2章 视频会议系统的技术研究

2.1视频会议系统的类型和组成

2.1.1视频会议系统的类型

根据运行环境和支持标准等视频会议系统可以划分为以下不同的类型

[9]

根据会议节点数目不同,视频会议系统分为点对点视频会议系统和多点视频会议

系统。点对点视频会议系统应用于两个通信节点间。多点视频会议系统应用于两个以

上节点之间的通信。

根据运行的通信网络不同,视频会议系统分为数字数据网(DDN)或其他专用网

型、局域网广域网型(LANWAN)和公共交换电话网型(PSTN)3种。使用DDN或

专用网,在384~2048kbits,可提供25~30帧s的CIF或QCIF图像;在LANWAN

5

环境种,运行在384kbits速率下,可提供每秒15~20帧s图像;而在PSTN上,运

行在28.8kbits或33.6kbits等速率下,只能达到5~10帧s。

根据技术支持类型的不同,视频会议系统可分为基于线路的视频会议系统和基于

分组的视频会议系统。基于线路的视频会议系统,也称为常规视频编解码系统,依照

专用线路提供一个确定的比特率,诸如租用线路或公用线路交换服务。基于分组的视

频会议系统是从分组视频通话系统演化而来的,其基本原理是相同的,即利用桌面计

算机支持视频会议的服务。

根据所选用的终端类型不同,视频会议系统可分为桌面视频会议系统(Desktop

Video Conference)、会议室型视频会议系统(RoomRoll-about Video Conference)和

可视电话系统。桌面型视频会议系统主要利用计算机软件完成会议功能。会议室视频

会议系统在带有环境控制设备的专用会议房间里装置一个或多个大屏幕,系统由屏

幕、摄像机、麦克风和辅助设备等组成。可视电话系统用于点到点通信,它满足了在

电话上进行视频会议传输的要求,系统组成包括一个小屏幕、内部摄像机、视频编解

码器、音频系统和键盘。

视频会议系统按照传输网络可以分为以下几类:

[10]

基于PSTN(Public Switched Telephone Network,公共交换电话网)的系统一般

只提供点到点的通信功能,因受信道速率33.6kbps的约束,难以提供较好的质量和音

频,应用范围有限。

基于ISDN(Integrated Services Digital Network,综合业务数字网)的系统是目

前使用最多的系统,ISDN线路结合了数字通信的灵活性与电话系统的低价位。通常

ISDN提供64kbps或128kbps的带宽,足够一般通信会议系统使用,所以对于桌面会

议系统比较合适。

基于ATM(Asynchronous Transfer Mode,异步传输方式)和B-ISDN(Broadband

Integrated Services Digital Network,宽带综合业务数字网)的系统因ATM和B-ISDN

尚未普及,因此这种类型的系统目前很难有较大的发展。

基于LAN(Local Area Network,局域网)的系统与其他网络相比,LAN具有组

网简单、传输速率高等特点,其上运行的视频会议系统也较容易实现好的运行效果。

基于Internet的系统是以上各种类型网络集合而成的错综复杂的环境,在其上运

行的视频会议系统相对来说实现难度最高。但是,随着Internet的商业巨大成功,基

6

于IP网络的具有多媒体通信功能的应用系统成为多媒体应用的主要发展趋势。

2.1.2视频会议系统的组成

典型的多媒体视频会议系统由终端设备,通信链路,多点控制单元(MCU,

Multi-point Control Unit)及相应的软件部分组成。

终端设备:终端设备不仅要完成各自的数据处理任务,还要并行完成多媒体通信

协议的处理、音视频信号的接收、存储与播放,并记录和检索大量与会议相关的数据

与文件。终端设备的硬件配置包括音、视频信号处理器,压缩与解压缩卡,以及摄像

机、话筒、扬声器、电子书写板、图像扫描仪和通信网卡等。

通信链路:通信链路的选择有很多种,包括PSTN、LAN、WAN、N-ISDN、Frame

Relay或者B-ISDN、ATM等。

多点控制单元MCU:MCU是视频会议系统的核心设备,它是一个数字处理单元,

通常设在网络节点(汇接局)处,用于处理多个地点同时进行通信,其主要功能是将

各终端送来的信号进行分离,抽取出音频、视频、数据和信令信号,分别送到相应的

处理单元,进行音频混和或切换、数据广播和确定路由选择、定时和处理会议控制等。

软件部分:软件部分包括协议处理、会议服务、音频与视频信号处理、协同工作

管理和图形用户接口等。国外常见的视频会议软件有CU-See Me(由美国Cornell大

学开发)、IVS(INRIA Videoconferencing System,由法国INRIA Sophia 开发)和

Show Me(由Sun Microsystems公司开发)等。

2.2 H.323标准分析

2.2.1 H.323协议的概念

1997年3月ITU-T(国际电信联盟电信标准化部门)发布了用于局域网上的视频会

议标准协议H.323,为与Internet和Internet相连的视频会议系统提供了互通的标准,

各厂商也纷纷推出符合该标准的视频会议系统产品。H.323是一套在分组网上提供实

时音频、视频和数据通信的标准,是ITU-T制订的在各种网络上提供多媒体通信的系

列协议H.32x的一部分。H.323协议被普遍认为是目前在分组网上支持语音、图像和

数据业务最成熟的协议。采用H.323协议,各个不同厂商的多媒体产品和应用可以进

7

行互相操作,用户不必考虑兼容性问题。

H.323制定了无QOS(服务质量)保证的分组网络 PBN(packet Based Networks)上

的多媒体通信系统标准,这些分组网络主宰了当今的桌面网络系统,包括基于TCPIP、

IPX分组交换的以太网、快速以太网、令牌网、FDDI技术。因此,H.323标准为LAN、

WAN、Internet上的多媒体通信应用提供了技术基础和保障,成为视频会议系统的主

流技术。

H.323是ITU多媒体通信系列标准H.32x的一部分,该系列标准使得在现有通信

网络上进行视频会议成为可能,其中,H.320是在N-ISDN上进行多媒体通信的标

准:H.321是在B-ISDN上进行多媒体通信的标准:H.322是在有服务质量保证的LAN

上进行多媒体通信的标准:H.324是在GSTN和无线网络上进行多媒体通信的标准。

H.323为现有的分组网络PBN(如IP网络)提供多媒体通信标准。若和其它的IP技术

如IETF的资源预留协议RSVP相结合,就可以实现IP网络的多媒体通信。基于lP

的LAN正变得越来越强大,如 IP over SDHSONET、 IP over ATM技术正在快速发

展以及LAN宽带正在不断的提高。由于能提供设备与设备、应用与应用、供应商与

供应商之间的互操作能力,因此,H.323能够保证所有H.323兼容设备的互操作性。

更高速率的处理器、日益增强的图形器件和强大的多媒体加速芯片使PC成为一个越

来越强大的多媒体平台。H.323可提供PBN与别的网络之间进行多媒体通信的互连互

通标准。许多计算机、网络通信公司,如Inter、Microsoft和Netscape都支持H.323

标准。H.323标准包括在无QOS保证的分组网络中进行多媒体通信所需的技术要求。

这些分组网络包括LAN、WAN、Internet以及使用PPP等分组协议通过GSTN或ISDN

的拨号连接或点对点连接。

2.2.2视频会议系统的基本框架结构

图2.1为基于H.323的视频会议系统的体系结构。从图中可以看出,H.323会议

系统由终端(Terrill),网守(Gatekeeper,亦称网闸),网关 (Gateway),多点控制单元

(MCU)组成,不同的会议分组由路由器(Route)接入Internet。

视频会议系统的框架结构是基于H.323标准建立的,H.323是一个框架协议,它

涉及到终端设备、视频、音频和数据传输、通信控制、网络接口方面的内容,还包括

8

图2.1视频会议系统的组成

了组成多点会议的多点控制单元(MCU),多点控制器(MC),多点处理器(MP),网关

以及网守等设备。它的基本组成单元是“域”,在H.323系统中,所谓域是指一个由

关守管理的网关,多点控制单元(MCU),多点控制器(MC),多点处理器(MP)和所有

终端组成的集合。一个域最少包含一个终端,而且必须有且只有一个关守。H.323系

统中各个逻辑组成部分称为H.323的实体,其种类有:终端,网关,多点控制单元

(MCU),多点控制器(MC),多点处理器(MP)。

其中终端、网关、多点控制单元(MCU)是H.323中的终端设备,是网络中的逻辑

单元。终端设备是可呼叫的和被呼叫的,而有些实体是不通被呼叫的,如关守。H.323

包括了H.323终端与其它终端之间的,通过不同网络的,端到端的连接。H.323协议

它参考了其他ITU-T标准,提供了系统和组件描述,呼叫模型描述以及呼叫信号处理,

完成了多层次的多媒体通信。这些层次结构包括局域网上的声音通信,声音和视频通

信,声音和数据通信,声音和视频通信以及数据通信。

2.2.3 H.323协议栈详细描述

H.323协议栈是一个有机的整体,根据功能可以将其分为四类协议,也就是说该

9

协议从系统的总体框架 (H.323),视频编解码(H.263),音频编解码(G723.1等),系统

控制(H.245),数据流的复用(H.225)等各方面作了比较详细的规定。为网络电话和网络

会议系统的进一步发展和系统的兼容性提供了良好的条件。

系统控制是H.323终端的核心。整个系统控制由H.245控制信道,H.225.0呼叫

信令信道和RAS(注册、许可、状态)信道提供。

音频编解码协议包括G711协议(必选),G722,G723.1,G728,G729等协议。

编码器使用的音频标准必须与H.245协商确定H.323终端应能对本身所具有的音频编

解码能力进行非对称操作,如以G711发送,以G729接收。视频编解码协议主要以

H.263为主,H.323系统的数据会议功能是可选的。

在H.323系统中,包括4个主要的组件:终端(Terrill),网关(Gateway),网守

(Gatekeeper)和多点控制单元MCU( Multipoint Control Unit)。各组件之间通过信息流

的传递进行通信,这里的信息流可以分为视频、音频、数据、通信控制信号和呼叫控

制信号。

视频信号包含经数字化、编码后的运动视频,在网络上以不大于能力交换结果所

选择的速率进行传输。视频信号还伴有视频控制信号。

音频信号包含经数字化、编码后的语音,为了减少音频信号的平均比特率,应提

供语音激活功能。音频信号还伴有音频控制信号。

数据信号包括静止图像、传真、文档、计算机文件以及其他的数据流。通信控制

信号用于在相关端点之间传递控制数据,完成能力交换、打开关闭逻辑信道、模式控

制和其他通信控制功能。

呼叫控制信号用于呼叫建立、呼叫拆除,以及其他呼叫控制功能。

按照H.225.0协议,上述信息流经格式化后,被送往H.225.0描述的网络接口层

中。

2.2.4 H.323组件

① H.323终端:H.323终端是能够在分组交换网络中提供实时、双向通信的节点。

H.323终端功能框架如图2.2所示。其中系统控制单元、H.225分层、分组网络接口、

音视频编码单元是H.323终端必须具备的,视频编解码单元和数据应用是可选的。下

面简单介绍终端基本组件的主要作用。

10

音频压缩:采用特定的音频压缩算法产生数字化音频信号并进行相应的解码。在

运用中,编解码器使用的音频算法是在交换期间通过H.245协商得到的。音频流应根

据H.255.0标准进行格式化。H.323终端可以同时发送或接收多个音频信道信息。例

如,它可以允许两种语音传送;对于多点会议,H.323终端需实现音频混合的功能。在

音频压缩,G711是必需的,而其余的G722、G728、G723和G729是可选的。

视频压缩:采用特定的视频编码算法产生数字化信号并进行相应的编码。视频编

码不进行BCH纠错,且允许以不对称的视频比特率、帧速率、图像分辨率运行。类

似音频编解码器,视频编解码器使用的编解码算法是在交换期间通过H.245协商得到

的,视频流也应根据H.225.0建议规定的格式进行打包传送。在视频压缩中,

H.261QcIF方式是必选,而H.261cIF和H.263所有图像格式是可选的。数据信道。

H.323终端通过H.245的控制消息建立一个或多个数据信道。

H.323会议系统的数据功能是建立在T.120系列基础之上的。根据应用的要求,

数据信道是双向或单向的逻辑信道,在这些逻辑信道上实现H.323会议系统的全部数

据通信功能。

H.245控制:H.245控制信道承载管理。H.323通信试图操作的端到端控制消息,

描述了用于打开和关闭传输音频、视频和数据的逻辑信道以及容量交换、模式选择请

求、流量控制消息及通用命令和指示。H.245信令在两个终端间或一个终端和MCU

间或一个终端和网关间建立。对于端点参与的呼叫,端点应在每个方向上建立一个

H.245控制信道,并使用H.245建议的消息和规程。

H.225呼叫控制:运用H.225呼叫控制信令来建立两个H.323终端间或终端与网

守间的连接,其中H.225.0描述了媒体(音频和视频)流打包、媒体流同步、控制流打包

以及控制消息格式。呼叫信令信道的建立先于H.323终端间的H.245控制信道和其他

任何逻辑信道,因此,它的建立不受H.245控制信道的管理。

RAS控制:RAS(Registration, Admission and status,登记、接纳和状态协议)

信号运用H.225控制消息在终端与网守之间执行登记、接纳、带宽改变和使二者脱离

关系等过程。RAS信道不受H.245控制信道管理。系统没有网守时,无需建立RAS

信道。若系统存在网守,RAS信道建立早于终端间的任何信道。

分组网络接口:H.323终端的网络接口是H.225建议所描述的,它规定了下述必

需的功能:对H.245控制信道、数据信道、呼叫信令信道提供可靠的端到端服务(TCP、

11

SPX等),对于音频、视频和RAS信道提供不可靠的端到端服务(UDP、IPX等)。这

些服务可以是单工、双工、单播或多播的。

H.323终端之间的通信过程分为几个阶段,简单描述如下:

第一阶段,执行呼叫信令协议(H.225.0),控制信道为呼叫信令信道(可靠信道),

呼叫建立后,在端点之间建立起H.245媒体控制信道。

第二阶段,执行H.245控制协议,控制信道为媒体控制信道(可靠信道)。进行通

信能力交换和模式设定,以协调通信双方的互通性。

第三阶段,在端点之间建立具有一定带宽的音频和视频逻辑信道,这些逻辑信道

为实时不可靠信道,采用UDP方式传输。

第四阶段,在通信过程中,执行H.245媒体控制协议进行参数设定和带宽修改等。

第五阶段,利用H.225.0呼叫控制协议结束通信,关闭逻辑信道,媒体控制信道

和呼叫控制信道。

12

图2.2 H.323终端设备结构图

② 网闸:网闸又称网守,是H.323传输架构中最为重要的设备,它相当于整个

架构的管理者与仲裁角色,它的工作包括终端的IP认证及别名(misaddress)转换,传

输带宽的管理,信令的转换等。从逻辑上讲,网闸是一个独立的设备(功能模块),但

实际上,网闸可以与终端,MC,MP,MCU,Gateway等在一个设备上,但其功能

是独立的。

在H.323系统中可以有网闸,甚至有多个网闸,网闸之间还可以进行相互通信,

但也可以没有网闸。但是,如果它们在H.323网络中出现,末端设备就必须用到它们

的服务。网闸的基本工作就是为注册的H.323端点提供呼叫控制服务。H.323标准定

义了几种网闸必须提供的服务,也指出了它能提供的其他的可选的功能。

H.323要求网闸必须提供以下服务:

地址翻译:网闸必须能将别名地址翻译为传输地址。这在电路交换网络中的电话试

图呼叫在此网络中的PC的情景中是特别有用的。当决定PSIN的网关定址时也十分

有用。

入会场许可的控制与管理:H.323系列建议定义了用来授权的网络接入的RAS消

13

息。服务提供商可以通过网闸界面利用现有的授权机制。另外,企业管理和服务提供

商还可以提出他们自己的网络授权准则—例如,基于服务预定,信用卡保证,一天中

的某些时段等等。在某些情况下,所有的呼叫都能被授权。

带宽控制:网闸必须支持RAS带宽消息。许多情况下,带宽请求都将被接受,

除非网络或特定的网关阻塞。H.323标准还规定了强迫带宽控制的机制。

域管理:网闸必须列出所有在其上登记的末端设备的表格。决定哪些H.323末端

设备能够登记到特定的网闸、图表或域的逻辑合成的规则并不由H.323标准指定,而

是留待网络设计员酌情处理。

③ 多点控制单元:多点控制单元用于支持3个以上端点设备的会议,主要功能

是协调及控制多个终端间的视频传输。MCU的作用相当于一个交换机的作用,但它

又与一般电话网的交换机不一样。H.323系统中,一个多点控制单元由一个多点控制

器MC(Multipoint Controller)和几个多点处理器MP(Multipoint processor)组成,但也

可以不包含MP。多点控制器处理终端间的H.245控制信息,从而决定它对视频和音

频通常的处理能力。在必要情况下,多点控制器还可以判断哪些视频流和哪些音频流

需要多播,以控制会议系统使用的资源。

MC主要是负责协调终端间传输频道使用的先后顺序及利用H.245来界定传输内

容的规格;MP则是在MC的控制规定之下真正在从事影音的再制作、转送、以及一

些视频流的处理。MCU中MC是必须要具备的管理功能,MP则视终端处对视频的

处理能力及整体环境架构而有取舍的余地。

MC并不直接处理任何媒体信息流,而将它留给MP来处理。MP对视频,音频

或数据信息进行混合,切换及其他处理。多点处理器和多点控制器可能存在于一台专

用设备中或作为别的H.323组件的一部分,但MCU一般是独立的单元设备,具有自

己的传输层地址。

④ 网关(Gateway):在会议系统中,网关是跨接在两个不同网络之间的设备,把

位于两个不同网络上的会议终端连接起来组成一组会议。网关的主要功能有三大类:

第一大类是通信格式的转换,如对于H.323会议网络(如IP网)和电路交换网 (SCN)

之间就必须通过网关实现H.225.0码流和H.221码流之间的互译,以完成链路层的连

接。第二大类是视频、音频和数据信息编码格式之间的互译,以完成表示层之间的相

互通信。第三大类是通信协议和通信规程如H.245与H.242之间的互译,以实现应用

14

层的通信。由于网关是跨接在两个网之间的,对于两个网中的任一个网来说网关都是

该网的一个设备。由于网关在一个网内是没作用的,因而会议如在一个网内召开,就

不需要网关。在两个网中的任一个网内它要么起终端的作用,要么在网内起MCU作

用。

H.323的视频会议系统的层次结构。H.323标准协议不是单纯的一个协议,而是

包含网守RAS协议、呼叫信令H.225协议、媒体控制协议H.245协议、媒体传输协

议义TCP以及音频视频编解码协议和数据共享协议T.1加协议的一系列协议的集合

体。

具体介绍如下:

网络层和传输层协议:在H.323协议栈中,IP和TCP协作,共同完成面向连接的

传输。可靠的传输保证了数据包传输时的流量控制、连续性以及正确性,但这样会引

起传输延迟以及占用网络带宽。H.323将可靠的TCP用于H.245控制信道。T.12O数

据信道和呼叫信令信道。音频和视频信息采用不可靠的、面向非连接的传输方式,即

利用用户数据报协议担DP),因而它无法提供很好的服务质量,但其传输延时较TCP

小。

系统控制:系统控制功能是H.323终端的核心,它提供了H.323终端正确操作的信

令,这些功能包括呼叫控制、能力交换、命令和指示以及用于开放和描述逻辑信道内

容报文等。整个系统的控制由 H.245多媒体通信控制信道、H.225.0呼叫信令信道以

及RAS信道提供。

分组与同步:H.225.0标准描述了无服务质量保证的分组网络上媒体流的打包分组与

同步传输机制,它对传输的视频、音频、数据与控制流进行格式化,功能以便输出网

络接口。另外,它还完成逻辑成帧、顺序编号、纠错与检错功能。

RAS协议原理。进行注册、认可和状态通信的不可靠信道称为RAS信道。RAS

通知功能用H.225.0消息在端点和关守之间执行登记、授权,带宽变换状态和脱离处

理。RAS通知信道独立于呼叫信道和H.245控制信道。H.245打开的逻辑信道过程并

不用于建立RAS通知信道。在互联网环境下,由于没有网守,因此没有采用RAS通

知信道。在包含一个关守的互联网环境下,RAS通知信道在端点和关守之间存在。

RAS通知信道比H.323端点之间的其它任何信道的建立都早。

呼叫信令功能利用H.225.0的呼叫信令在两个H.323终端之间建立连接。呼叫信

15

令信道独立于RAS信道和H.245控制信道。H.245的打开逻辑信道过程并不用来建立

呼叫信令信道。呼叫信令信道在H.245信道和其它的H.323端点之间的信道建立之前

就应该打开。在没有关守的场合,呼叫信令信道在两个对应的呼叫端点之间打开。在

有关守的场合,呼叫信令在端点和关守或由关守指定的端点之间打开。

RAS是端点和网守之间执行的协议,基本上是管理功能,有以下几个过程:

第一步,网守搜寻

用于端点搜寻其归属网守,其后所有RAS消息均限定在端点和其归属网守之间

的传送。网守搜寻有两种方式,人工方式和自动方式。人工方式通过终端配置完成,

将其归属网守的运输层地址预置入配置文件或者初始化文件。自动方式允许端点和其

归属网守的关系可以随时间改变,但又有网守出现故障时可以自动切换到替换网守

上,提高了可靠性和灵活性,而且减少了管理工作量。

第二步,端点登记

用于端点向网守登记其自身信息,主要是别名和呼叫控制信道运输层地址,包括

取出登记过程。必须在登一记后才能发起和接收呼叫,登记表明该端点加入了管理区。

第三步,呼叫接纳

起呼的第一步操作,询问网收是否允许该呼叫发起。

第四步,呼叫退出

呼叫结束后通知网守,该端点已经退出呼叫。

第五步,带宽管理

支持端点在呼叫过程中提出带宽改变要求,由网守作决定。

2.3 H.323视频会议过程

一次完整的视频会议通信过程,包括以下五个阶段:

第一阶段,呼叫建立

参加会议的末端设备首先需要在网守处注册。以决定其对网络的访问权限及可使

用的带宽,建立RAS信道,采用H.225.0定义的RAS信令,会议呼叫由终端或终端

通过MCU发起。终端与终端建立连接或MCU逐个呼叫所有与会者终端,建立握手

信号后,终端和MCU之间建立起一条会议控制的通道,通过网络的可靠传输协议来

保证控制信令的正确性,这个过程建立呼叫信令信道,采用以Q.931为基础的H.225.0

16

信令。

第二阶段,通信初始化和终端性能协商

终端之间交换通信模式或MCU选择会议通信模式,并根据事先指定或各终端的

申请将其分为主席会场、会话会场和听众会场。终端性能协商是根据各终端的性能参

数来选择视频和音频的编解码方式。

第三阶段,视频、音频通信的建立

终端根据H.245信道建立视频、音频信道或MCU为各终端分配视频流、音频流、

数据流端口号,并获取相应终端对应端口,建立起两者之间的双向通信通道。对视频

流和音频流将使用非可靠协议UDP而数据流则以可靠传输协议TCP来进行。

第四阶段,会议服务

实现H.245会议控制过程,即MCU和终端之间的视频切换过程、模式切换过程、

信息流的广播过程和主席控制过程。这一过程利用已建立的呼叫控制信道,仍采用

H.245信令。

第五阶段,会议结束

终端发起退出会议申请,终端关闭视音频通道,随后关闭控制通道,终止会议。

2.4本章小结

本章对一个完整的视频会议系统进行了介绍,主要讨论了H.323协议以及协议规

定的各个组件的功能,并且给出了视频会议的过程。

第3章 视频会议系统使用的关键技术

视频会议系统涉及计算机网络、多媒体通信、媒体信号处理等多方面的内容,是

计算机网络中的一种多媒体通信的应用。系统采用了包括计算机网络技术,媒体信号

编码压缩解压技术,多点传输技术以及保证系统QOS的多方面的技术。其中最为核

心的技术是网络技术,媒体编解码技术和媒体信号传输技术。视频会议系统经过了由

模拟向数字,由电信网向计算机网络,由无标准向有协议标准的发展.

在Internet上实现视频会议系统,需要解决以下几个主要方面的关键技术:一是

多媒体信息处理技术;二是网络技术;三是信息安全技术;四是流媒体传输技术。

17

3.1多媒体信息处理技术

3.1.1多媒体压缩技术

压缩编码技术是视频会议系统的关键技术之一,多媒体信息,特别是连续媒体信

息源将产生大量的实时数据,如果直接进行传输或存储,则会对网络带宽和存储空间

带来很大的负担。因此,多媒体数据在传输前或存储前必须经过压缩处理,传送到目

的地后再解压播放。这样可以节省大量的网络带宽。

多媒体数据压缩是通过数学运算将原来较大的文件变为较小文件的数字处理技

术,数据解压缩是把压缩数据还原成原始数据或与原始数据相近的数据的技术。数据

压缩通常可分为无损压缩和有损压缩两种类型。无损压缩是指压缩后的数据经过重构

还原后与原始数据完全相同,有损压缩是指压缩后的数据经过重构还原后与原始数据

有所不同。

衡量一种压缩技术的好坏主要综合考虑三个指标:一是压缩比要大;二是算法要

简单,压缩解压缩速度要快,能够满足实时性要求;三是压缩损失要少,即解压缩的

效果要好。

数据压缩的技术核心是压缩算法,目前常用的压缩方法有两类:一是无损压缩(又

称冗余压缩法或嫡编码法),主要用于文本和数据压缩,典型的有Hamlin算法、游程

编码;二是有损压缩(嫡压缩法),主要用于图像和声音的压缩,常用的有模型编码、

矢量量化、子带编码等。在具体应用中,常混合采用多种压缩算法,如用于静态图像

压缩的JPEO,以及今年来发展起来的支持静态图像压缩的MPEG等。

3.1.2音频编解码技术

数字音频编码有许多成熟的算法和标准,它们大多采用基于差分脉冲编码调制

(ADPCM,Adaptive Differential pulse Code Modulation)、线形预测编码(LPC,Linear

predictive Coding)、(CELP,Code Exited Unbar Prediction)等方法,目前应用最广的

音频压缩标准是G.7xx系列标准,主要包括G711,G721,G722,G723,G726,G728

和G729,可以分为基于采样的编码和基于帧的编码。

G711和G722属于基于采样的编码,特点是每个话音采样均用固定数目比特来表

示。G711包含A律和U律PCM两种方式,编码器数据率为64kbps。G722全称是

18

数据率为64kbPs的7kHz音频编码,也是由ITU-T制定的音频编解码标准。

G723、G728和G729是基于帧的话音编码,本文采用的是G723语音编码,G723

是一个双速率的语音编码器,G723.1语音编码是H.323协议首推的语音编码器,它不

仅具有两种低速率语音编码输出,而且具有很好的语音质量,因此,目前在IP的多

媒体通信系统中应用特别普遍。它的两个编码速率分别为6.4k和5.3k。高速率 (6.4k)

采用多脉冲激励最大似然量化算法,低速率 (5.3幻采用代数码本激励线形预测伍

CELP)算法。这两种算法具有相同的理论基础,都是基于线形预测,都采用非周期性

分量的激励源。不同之处在于对MP-MLQ采用多脉冲最大似然量化激励,而对

ACELP采用的是代数码本激励。

3.1.3视频编解码技术

所谓编解码方式就是指通过特定的压缩技术,将某个视频格式的文件转换成另一

种视频格式文件的方式。目前视频编码技术主要有两种标准:一是国际电信联盟远程

通信标准化的H.26x系列标准;二是国际标准化组织国际电工委员会ISOIEC)运动图

象专家组的(MPEG(Motion Picture Expert Group)系列标准。其中,H.26X系列标准

能够在很低的码率下保证解码图象的质量,更加适合Internet上的实时视频业务。目

前视频流传输中最为流行的编解码标准有ITU-T制定的H.261,H.262,H.263及由

ITU-T视频编码专家组(VCEG)和MPEG联合组成的联合视频组提出的高度压缩数字

视频编解码器标准H.264。

H.264AVC是ITU-T VCEG(ITU-T Video Coding Experts Group,国际电信联盟

视频编码专家组)和ISOIEC MPEG共同开发的视频处理标准,ITU-T作为标准建议

H.264,ISOIEC作为国际标准14496-10(MPEG-4第10部分)高级视频编码(AVC)。

H.264不仅比H.263和MPEG-4节约了50%的码率,而且对于网络传输具有更好

的支持功能。它引入了面向IP包的编码机制,有利于网络中的分组传输,支持网络

中视频的流媒体传输。H.264具有较强的抗误码特性,可适应丢包率高、干扰严重的

无线信道中的视频传输。H.264支持不同网络资源下的分级编码传输,从而获得平稳

的图像质量。H.264能适应于不同网络中的视频传输,网络亲和性好

3.2网络技术

19

3.2.1 RTPRTCP协议

多媒体技术是把文字、音频、视频、图形等多媒体信息通过计算机进行数字化采

集、获取、压缩解压缩、编辑和存储等加工处理的技术。一般说来,文本信息在网络

上传送时不需要严格的实时控制,却要求可靠的服务。而声音、视频信息可以允许少

量的信息流失,但对时间的延迟却非常敏感,要求网络能实时传送。

在Internet上传输多媒体信息,对实时性要求很高,一般都是采用实时传送协议

RTP(Real-Time Transport Protocol)协议进行封装传输。IP网络的通信协议是基于

TCPIP协议的,当然,IP协议和TCP协议是核心协议。此外,为了保证视频会议的

音频和视频码流的实时传输,需要使用实时传输协议RTP。以上几个通信协议是IP

网的主要通信协议,是正网的通信基础,IP网的所有业务将都是在这些通信协议的基

础上建立起来的。

实时传输协议RTP

[11]

(Real-time Transport Protocol)是针对Internet上多媒体数

据流的一个传输协议,有IETF(Internet工程任务组)作为RFC1889发布。RTP被定

义为在一对一或一对多的传输情况下工作,其目的是提供时间信息和实现流同步,

RTP的典型应用建立在UDP上,但也可以在TCP或ATM等其他协议之上工作。RTP

本身只保证实时数据的传输,并不能为按顺序传送数据包提供可靠的传送机制,也不

提供流量控制或拥塞控制,它依靠RTCP提供这些服务。

实时传输控制协议RTCP(Real-Time Transport Control Protocol)负责管理传输质

量在当前应用程序之间交换控制信息。在RTP会话期间,各参与者周期性地传送

RTCP包,包中含有己发送的数据包的数量、丢失的数据包的数量等统计资料,因此,

服务器可以利用这些信息动态地改变传输速率,甚至改变有效载荷类型。RTP和RTCP

配合使用,能以有效的反馈和最小的开销使传输速率最佳化,故特别适合传送网上的

实时数据。

利用RTP能够在一对一(单播)或者一对多 (多播)的网络环境中实现流媒体数据

的实时传输。RTP通常使用UDP来进行多媒体数据的传输,但如果需要的话可以使

用TCP或者ATM等其它协议。RTP协议的设计目的是提高实时数据传输中的时间

戮信息以及各数据流的同步功能。RTP协议提供序列号字段使接受方根据检测收到的

分组序列号来判断是否有分组丢失,并可重新恢复发送时的分组序列;提供时间戳字段

20

用于重新建立原始音频、视频的时序,帮助接受方确定数据到达时间的一致性或变化,

提供同步源标识符 (SSRC)字段,在接收端为包分组从而进行回放。RTP本身并不能

为按序传输数据包提供可靠的保证,也不提供流量控制和拥塞控制,这些都由实时传

输控制协议RTCP来负责完成,通常RTCP会采用与RTP相同的分发机制,向会话

中的所有成员周期性地发送控制信息,应用程序通过接收这些数据,从中获取相关资

料,从而能够对服务质量进行控制或者对网络情况进行诊断。

当应用程序开始一个RTP会话时,各参与者周期性地传送RTCP包。RTCP包

中含有已发送的数据包的数量、丢失的数据包的数量等统计资料,因此,服务器可以

利用这些信息动态地改变传输速率,甚至改变有效载荷类型。RTP和RTCP配合使用,

它们能以有效的反馈和最小的开销使传输效率最佳化,因而特别适合传送网上的实时

数据。

3.2.2组播技术

视频会议业务需要点对多点的通信。目前视频会议系统的通信有单播和组播两种

方式。

单播技术是一种点对点的数据传输模式,其优点是容易实现,其缺点是如果多个

用户同时请求同一份数据,服务器必须通过网络给这多个用户依次发送多份拷贝,在

视频会议系统中,如果采用单播方式需要占用大量的带宽资源,限制了视频会议的规

模。

组播技术是一种点对多点的数据传输模式,组播将IP数据包发送到共享相同IP

地址的一个主机组中,一个点发送,多个点同时接收连续的数据流。组播技术可以避

免数据的重复发送,不会造成网络带宽的浪费,非常适合视频会议业务,是视频会议

系统的关键技术之一。

3.2.3 QOS保障技术

QOS问题即服务质量问题,是针对IP网络带宽的管理策略,是评价系统性能的

一个重要的问题。从我们要实现的视频会议系统所使用的网络环境来说,它是一个服

务质量不能保证的通信网,而会议系统存在实时要求很高的媒体信号,因而必须在服

务质量上采取措施,除了在媒体信号的编码中可以采取尺寸可变的编码方案,还需要

21

使用RTCP实时控制协议测量网络的QOS,同时,采用资源预留管理。

资源预约协议RSVP提供一种有效的资源预留方式,可以有效地描述应用程序对

资源的需求。RSVP建立在IP协议之上,可以利用IP数据报传输RSVP消息。RSVP

是一个单工协议,只在一个方向上预订资源。另外,RSVP是一个面向客户端协议,

由接收端负责资源预订,可以满足点到多点群通信中客户端异构的需求,每个客户端

可以预订不同数量的资源,接收不同的数据流。RSVP还提供了动态适应成员关系的

变化,动态适应路由变化的能力。RSVP可以满足大型点到多点通信群的资源预订需

求。为了建立并维护分组数据传输通道中各个交换机的状态, RSVP建立了一个信宿

树。信宿树以接收端为根结点,以发送端为叶结点,发送端与接收端之间的通道作为

树的分支。资源预订消息由接收端开始,沿信宿树传输到各个发送端结点。在视频会

议中,可以采用RSVP协议来确保网络中能预留一定的带宽。建立一条从发送端到接

收端的路径,使得IP网络能提供接近于电路交换质量的服务,即在面向无连接的网

络上,增加了面向连接的特性。

3.3信息安全

视频会议系统是一个开放的系统,基本上没有考虑安全性的问题。解决信息安全

问题刻不容缓。目前,用于视频会议系统的信息安全技术主要有两大类:

第一类是加解扰技术:该类技术目的是防止信息被非法盗用,可以用于视音频数据

的加密。该技术己经广泛用于数字电视的加密频道中。基本原理是在发送端对要发送

的数据加扰,同时在授权的接收端(拥有相应的解密密钥)对接收的数据解扰。

第二类是数字签名:该类技术的目的是解决信息的否认、伪造、篡改及冒充的问

题。数字签名的发送者发送的报文签名,接收者不能伪造发送者的报签名,接收者不

能对发送者的报文进行部分篡改,网络中的某一用户不能冒充另一用户作为发送者或

接收者。数字签名的应用范围十分广泛,包括:加密信件、商务信函、定货购买系统、

远程金融交易等等。

3.4流媒体传输技术

3.4.1流媒体的概念

22

所谓流媒体技术(或称流式媒体技术)就是把连续的影像和声音信息经过压缩处

理后存放到视频传送服务器上,由视频传送服务器把节目传送到网络,用户在客户端

通过播放器可实时观看节目。在网络上传送的一系列相关的数据称为“流”

[12]

流媒体(Steaming Media)是一种新兴的网络传输技术,在互联网上实时顺序地传

输和播放枷音频等多媒体内容的连续时基数据流,流媒体技术包括流媒体数据采集,

枷音频编解码,存储,传输,播放等领域。

一般来说,流包含两种含义,广义上的流是使音频和视频形成稳定和连续的传输

流和回放流的一系列技术、方法和协议的总称,我们习惯上称之为流媒体系统;而狭

义上的流是相对于传统的下载-回放(Download-Playback)方式而言的一种媒体格

式,它能从Internet上获取音频和视频等连续的多媒体流,客户可以边接收边播放,

使时延大大减少。

流式传输时,声音、影像或动画等时基(基于时间连续的)媒体由音视频服务器

向用户计算机连续、实时传送,用户不必等到整个文件全部下载完毕,而只需经过几

秒或十数秒的启动延时缓存即可进行观看。当音频、视频的时基媒体在客户机上播放

时,文件的剩余部分将在后台从服务器内继续下载。流式传输不仅是启动延时成十倍、

百倍地缩短,而且不需要太大的缓存容量。流式传输避免了用户必须等待整个文件全

部从Internet上下载后才能观看的缺陷。

实现流式传输通常采用实时传输控制协议(RTCP)和实时传输协议(RTP)。

3.4.2实时传输协议RTP

RTP(Real-time Transport Protocol)是IETF的音视频传输工作组建议的实时传

输协议标准,它为音频、视频等实时数据提供端到端的网络传输服务。这些服务包括

负载类型识别,序列编号,时间戳及传输监控

[13]

。RTP通常运行于UDP协议之上,

利用下层协议提供的组播功能实现多点传输,但是它独立于下面的传输层和网络层。

RTP本身并不提供资源预留,也不保证实施服务的QOS(Quality-of-Service),而是

依赖于下层服务来实现,如RSVP(Resource Reservation Protocol)

[14]

3.4.3实时传输控制协议RTCP

一般来说,RTP的实现总是伴随着使用RTCP(Real-Time Control Protocol),

23

这一协议为大规模的多点通信提供通信量监控,最小会议控制和身份识别功能等。

RTCP可以为传送的RTP数据的QOS提供反馈,这样通信中的第三方在收到反馈包

时可以判断网络的状况。RTCP可以在会话中传送控制信息,而且会话中的每个参与者

都可以知道会话的规模。RTCP可以实现以下的控制功能

[15][16]

QOS监控和拥塞控制。发送音频(或视频)数据的发送者会产生一个SR包,包中

含有所发送的包数和字节数统计等信息,接收者可据此估计出实际的数据率。会话成

员向所有参与会话活动的音频、视频源发送RR包,包中含有所接收的最高包序列号,

丢失的包数,包间隔抖动测量值以及计算源端和目的端之间RTT(Round Trip Time,

来回时间)所需的时间戳。

① 标志媒体间的同步。RTCP的SR包中含有实际时间和相应的RTP时间戳,

可用于不同媒体间的同步。

② 提供标志信息。RTP数据包只能通过随机产生的32bits的标志符来标志源,

而RTCP的SEDS数据包为每一个对话成员提供了全局惟一的标志符信息,如Email

等,可以满足复杂应用的需要。

③ 会话规模估计和规划。参与会话的每个成员周期性地发送RTCP包,各站点

可据此估计或计算出参与会话的人数,及时调节实时控制的信息量,使得控制信息量

和媒体业务量达到平衡。

④ RTCP定义了多种包的类型,用于承载多种控制信息。每个RTCP包都和RTP

数据包类似,都以一个固定的头部开始,后面跟着一个随包的类型的不同而不同的结

构化元素。该元素可能是变长的,但总是在32比特边界上结束。

3.5 NAT穿越技术

3.5.1 NAT技术与NAT穿越

NAT技术,即在一个网络内部的节点要与外部Internet网络进行通讯时,网络中

的IP包从源地址在到达目的地址的过程中,NAT就修改该IP包的源、目的地址(IP)

和源、目的端口(Port),通过这个修改将其内部自定义的IP地址转换为合法的公用

IP地址并作好所有的转换记录;反之,NAT也会进行反向的修改,通过这两种可逆

操作可实现内部网和外部Internet网的通讯

[17]

24

NAT的作用是:客户机将能在全球Internet上与专用IP地址进行通讯,而应用

程序或客户机却无需做任何额外的工作

[18]

。但是并非所有网络应用程序都使用能与

NAT协同工作的协议,“NAT穿越”对于解决由NAT引起的连接问题是一种较为全

面的解决方案。

“NAT穿越”是这样一组功能:它允许网络应用程序能明确自己位于NAT设备

的后面,获得外部IP地址,并将端口映射配置为将NAT外部端口的数据包转发给应

用程序所用的内部端口,而所有这些都是自动完成的,因此用户不必手动配置端口映

射或其他类似的方面

[19]

3.5.2 NAT穿越的主要技术

为了解决NAT穿越问题,当前的主要技术有:应用层网关(ALG, Application Level

Gateways)方案,中间箱通信(MIDCOM, Middle Box Communication)方案,SIP

代理(SIP Proxy)方案,中继穿越NATTURN, Traversal Using Relay NAT)方案等。

应用层网关方案:ALG是一种能识别特定协议(如SIP)的设备,它修改SIP消

息里面的SIP地址和端口和SDP消息里面的RTP地址和端口,其中RTP地址和端口

要向RTP Proxy请求获得,RTP Proxy分配自己的一个空闲的地址和端口,并和这个

Call保持映射关系。并为分配给呼叫双方的地址和端口进行绑定,这样,呼叫双方的

RTP连接地址都是RTP Proxy,由RTP Proxy经过中转,发至真正的目的地。应用层

网关可以在特定协议系统完全不知晓的情况下实现透明的穿越,所以对现有的协议系

统所做的更改是最小的,正因为这种透明性使得应用层网关得到了极大的普及

[20]

中间箱通方案:此协议是由IETF的Mid小组提出的帮助复杂应用(如SIP)穿

越Middle box(如防火墙NAT)的一种手段。通过这个协议,复杂应用可以和Middle

box信任的实体通信,然后由这个实体控制Middle box(如控制防火墙打开关闭端口

等)达到穿越的目的。Mid更多的是一种穿越的技术,而不是一个完整的方案,但是

可以和很多方案一起配合使用

[21]

中继穿越方案:NAT TURN的解决思路是使私网用户事先获得在TURN服务器

上分配的地址并在SDP描述中直接填入该公网地址,即TURN服务器为客户端分配

地址并对媒体流进行relay转发。其优点是可以穿越对称NAT及可以分配端口号连续

的RTPRTCP地址对。其问题在于除了要求中断支持TURN client之外,TURN服务

25

器对大部分实时媒体流的转发可能引起网络性能下降。

隧道透明穿越技术方案:隧道透明穿越的方案是在要进行多媒体业务的局域网内

放置一个代理,经过NAT设备与公网上的服务器建立连接。局域网终端的呼叫和控

制信令经过代理传递到服务器。代理同时具有注册服务功能和代理功能。处于公众网

中的服务器根据呼叫信令中的被叫信息查找注册表,确定被叫终端所在局域网的NAT

网关。由于代理处于局域网内部,为了使服务器能穿透NAT将信令转发到代理,需

要在NAT设备中配置一条静态的NAT路由。信令过程完成后,多媒体数据也由终端

发送给服务器,由服务器进行转发。

3.6 本章小结

这一章阐述了基于IP网络的视频会议系统所采用的关键技术。着重讲述了会议

系统的多媒体处理技术以及视频会议系统中媒体信息传输所需要的TCPUDP和实时

传输所必须的RTP等网络媒体信号传输技术,还有保障系统服务质量(QOS)问题所采

取的由RTCP监控系统质量以及流媒体传输技术。同时,介绍了视频会议系统中的流

媒体传输,音视频编解码,NAT穿越等关键技术。

第4章 视频会议系统的总体设计

4.1 局域网内的点对点视频会议系统结构

点对点视频会议的基本数据流程为:用户A经麦克风和摄像头获取音视频流,然

后对音视频流进行编码、压缩、打包处理。其中计算机对输入的不同类型的数据进行

不同的处理,如果是音视频数据,采用无连接的UDP协议进行传输;如果是信令和

26

数据则采用面向连接的TCP协议进行传输,然后经网络传输到用户B。用户B接收

到数据以后,再进行一系列的反变换,解包、解压和解码,经音视频设备输出语音和

图像。

4.2 视频会议系统软件结构

图4.1 系统软件终端框图

4.3 软件体系结构设计

软件体系结构是软件在设计构成上的基本、可供设计选择的形态和总体结构,定

义了软件的局部和总体计算部件的构成,以及这些部件之间的相互作用关系。

本视频会议系统采用的是客户用及务器模式的体系结构。“客户服务器”模式将

27

应用系统整体分为两个逻辑上分离的部分,一个“客户”和“服务器”,每一部分充

当不同的角色,完成不同的功能。客户又称前端(front-end),是协调应用问题内在逻

辑与服务器关系的程序;服务器又称后端(back-end),是使用网络作为通信机智而实

现操作服务的程序系统。

客户机服务器模型工作时要求有一套为客户机和服务器所共识的管理来保证服

务所能够被提供,这一套惯例包含了一套协议,它必须在通信的两头都被实现。根据

不同的实际情况,协议可能是对称的或是非对称的。在对称的协议中,每一方都有可

能扮演主从角色;在非对称协议中,一方被不可改变地认为是主机,而另一方是从机。

无论具体的协议是对称的还是非对称的,当服务被提供时必然存在客户进程和服务进

程。

一个服务程序通常在一个众所周知的监听客户对服务的请求,也就是说,服务进

程一直处于休眠状态,直到一个客户对这个服务的地址提出了连接请求。这时,服务

程序被“惊醒”并且为客户提供服务,对客户的请求作适当的反映。

4.4 系统的模块设计

在这个视频会议系统中主要包含3个模块,它们是:会议控制与管理模块,视音

频系统模块,多媒体通信与控制模块。

会议控制与管理模块:会议控制和管理用于建立和控制视频会议,包括会议建立、

控制会议进程,并对系统各项性能参数进行设置和调整,提供方便易用的人机接口。

视音频系统模块:本系统中的视音频模块又可以分为两部分。一部分是发送端视

音频的采集和压缩;另一部分是接收端视音频的解压缩和回放。这个模块主要采用了

Direct show编程技术,对音频采用G723.1编码,对视频采用H.263编码。

多媒体通信与控制模块:这个模块的主要工作是完成视音频通信,包括协调多媒

体信息流的同步工作,保障多媒体信息流的实时传输。

4.5 系统的工作流程

系统的工作流程如图4.2所示:

本系统采用的是基于IP地址的呼叫和会议创建方式,客户端和服务器端首先进

行初始化,包括设置(获得)本地用户名,本地侦听端口,设置能力集等,在没有建立

28

呼叫之前,双方处于均等的监听状态,并且双方的程序结构完全相同,如果一方通过

对方的IP地址向另一方发出呼叫,首先发出呼叫的一方即作为点对点通信双方服务

器一方。两终端呼叫建立起来之后,就开始H.245协议控制下握手协商工作。H.245

协议是用来建立和控制媒体流的协议。在打开逻辑信道之前,必须要知道对方的接收

能力。由于每个终端只能处理一定格式的媒体,所以,要通过能力交换,首先告诉对

方自己

29

30

图4.2 终端软件开发流程图

所能处理的媒体类型。在H.323终端之间要有一条或多条逻辑信道来携带媒体流。在

进行媒体交换之前需要建立这些信道,在呼叫结束时关闭这些信道。发送一个“打开

31

逻辑信道”请求消息后就可以打开一条逻辑信道。如果接收方愿意接收这一媒体,它

就会返回一个“打开逻辑信号应答”消息,同时带有一条传输地址来接纳媒体流。如

果对方不愿意接收,则它会返回一个“打开逻辑信道拒绝”消息,并带有拒绝原因。

接下来就是视频音频的传输过程。

4.6 本章小结

本章介绍了一种局域网内点对点的视频会议软件的总体设计,本软件主要基于

H.323标准完成,实现了两个终端之间的音频视频传输。

32

第5章 视频会议系统的实现

上章介绍了系统的整体结构。在本系统的实现中,音频、视频的采集和传输模块

以及控制和通信模块的实现是视频会议系统最关键的部分,本章对这几个问题作详细

的阐述。

5.1基于DirectShow视音频的采集的实现

5.1.1 DirectShow技术

DirectShow是微软推出的DirectX多媒体软件开发包中的一个组件。DirectX是

Micro-soft公司为游戏和其他高性能多媒体应用所提供的一套底层应用程序编程接

口。这些接口包括对二维和三维图形,声效和音乐,输入设备以及多玩家网络游戏等

的支持。

DirectShow技术是建立在DirectDraw和DirectSound组件基础之上,它通过

DirectDraw对显卡进行控制以显示视频,通过DirectSound对声卡进行控制以播放声

音。DirectShow可提供高质量的多媒体流的捕获和回放功能;支持多种媒体格式,包

括ASF(Advanced System Format),MPEG(Motion Picture Experts Group),

AVI(Audio-Video Interleaved),Mp3(MPEG Audio Layer-3)和WAV声音文件;可以

从硬件上捕获媒体数据流;可以自动检测并使用视频和音频加速硬件。因此,

DirectShow可以充分发挥媒体的性能提高运行速度,可以简化媒体播放、媒体间的格

式转换和媒体捕获等工作。同时,它还具有极大的可扩展性和灵活性,可以由用户自

己创建组件,并将这个组件加入DirectShow结构中以支持新的格式或特殊格式。

作为高效的多媒体开发系统,DirectShow兼备与底层的硬件设备和高层的应用程

序打交道的能力。过滤器图表(Filter Graph)是DirectShow的核心框架,它由一系列

的DirectShow的基本部件过滤器(Filter)通过其输入针 (Input Pin)和输出针 (Output

Pin)有序连接构建而成。应用程序通过过滤器图表管理器所提供一组组件对象模型

(COM)接口来访问过滤器图表。直接调用过滤器图表管理器接口来控制媒体流,获得

过滤器事件,或者使用媒体播放机控件来播放媒体文件。

过滤器是DirectShow的最基本的组成元件,由过滤器图管理器进行管理。

33

DirectShow对数据流的处理大致可以分成几个独立的过程,每个过程完成不同的工

作。事实上用户的一个应用程序就是几个不同功能的过滤器合在一起的过滤器图

(Filter Graph)。 DirectShow Filter可以分为以下几个种类:

① 源过滤器(Source Filter)

源过滤器是整个过滤器图(Filter Graph)中处理输入数据的过滤器。它从外部设备

获取原始数据并作简单处理,再将数据往下一级过滤器送。视频采集系统就是利用源

滤器从硬件设备采集视频数据。

② 变换过滤器(Transform Filter)

变换过滤器是整个过滤器图(Filter Graph)的核心,负责数据格式的转换。它从上

一级过滤器获取数据并对它进行处理:把原始数据流转换成其它形式的多媒体数据流;

压缩编码或解码;把一个数据流分解成多个数据流(Parse),如把一个音频视频混合流分

解成单独的音频流和单独的视频流;把多个数据流组合成一个数据流等。

③ 提交过滤器(Renderer Filter)

提交过滤器在过滤器图里处于最后一级,它的作用就是把经过处理的数据流提交

给外部设备。这里说的外部设备包括文件系统、显示卡、声卡、网卡等。过滤器图表

通过过滤器来传递多媒体数据。一个过滤器往下传递媒体数据到下一个过滤器。

一个标准的过滤器至少有一个数据输入端称为输入针 (Input Pin),以及一个数据

输出端称为输出针 (Output Pin)。为执行特定的任务,需要把不同的过滤器通过输入

针和输出针连接起来,这样,就构成了一个完整的过滤器图。基于DirectShow的应

用程序不需要对过滤器图中的每一个过滤器进行单独的处理,可以通过过滤器图管理

器来控制各类过滤器的连接以及多媒体流在过滤器图中的流向。

COM是微软提出的组件技术标准,它按照组件化程序设计的思想,把复杂的应

用程序设计成一些小的、功能单一的组件模块,各组件可用统一的方式进行交互。

DirectShow中大部分API都由基于COM的对象和接口组成。许多 DirectShow API

都创建为COM对象的实例,应用程序正是通过访问这些COM对象的接口来实现用

户所需的各种操作。下面列举一些重要的COM接口:

① I Graph Builder接口,构建过滤器管理的接口,建立和管理一系列的过滤器;

② I Media Control接口,控制多媒体流在过滤器图中的流动,如流的启动和停

止;

34

③ I Media Event接口,捕获多媒体流回放中的事件;

④ I Video Window接口,控制视频窗口的属性;

⑤ I Media Seeking接口,用于媒体流的定位;

⑥ I Base Filter接口,可定义一个具体的过滤器指针;

⑦ I Pin接口,管理两个过滤器间的针脚,从而连接过滤器;

5.1.2 视音频采集模块

目前有两种常见的驱动模式的视频捕获设备,VFW(Video For Windows)模式和

WDM(Windows Driver Mode)模式。发送端过滤器图表的主要任务是视音频的采集并

将视音频数据写入UDP发送端的缓冲区,以及本地的视音频预览和回放。在过滤器

中,视频音频采集过滤器的任务是选择系统设备中的视频音频输入设备。视音频回放

过滤器的任务是实时显示画面和播放声音。视频音频压缩过滤器的任务是把采集到的

未经压缩的视频音频进行压缩,并对压缩的参数进行设置。压缩的编码器可以是系统

中的设备也可以是自己实现的编码器。视频音频混合过滤器的任务是把视频和音频组

合成一条视音频交错排放的数据流。视频音频混合过滤器的任务是把视频和音频组合

成一条视音频交错排放的数据流。视音频抓包过滤器最后把这条视音频流写入发送缓

冲区,等待发送;在视音频抓包过滤器后接了一个渲染过滤器,这是一个完整的过滤器

图表所必需的,虽然它不对视频音频做任何处理。

在建立过滤器图表之前,要进行一些初始化工作,主要是创建过滤器图表管理器

和一些重要的接口,这是用DirectShow编程所必需的。初始化COM库是进行

DirectShow编程所必需的;媒体控制接口的工作是控制过滤器图表的运行、暂停和停

止。视频窗口接口的任务是设置视频预览窗口的参数,如窗口的位置、大小等等;在

将g_pGraph和g_pCapture。关联之后,就可以往过滤器图表添加过滤器了。接下来

的任务是创建上面过滤器图表中的过滤器,并通过函数Add Filter把过滤器加入到过

滤器图表中。过滤器的建立分为两种情况,一种是要建立的过滤器和设备有关系;另

一种是要建立的过滤器和系统设备没有关系。和系统设备没关系的过滤器(视音频混合

过滤器、视音频抓包过滤器)直接用函数COCreatelnstance创建。

实现一个具有基本功能的视频采集程序可通过以下几个过程:

① 通过调用CoCreatelnstance创建一个过滤器图表管理器实例。获得

35

IGraphBuilder接口指针,并把它存储到pGraph中。再调用CoCreatelnstance建立

一个capture graph builder对象实例,获得ICaptureGraphBuilder2接口指针,将它

存储到pBuilder中。InCaptureGraphBuilder2接口的作用是在将 Capture Filter加入

Filter Graph之后,连接剩下的Filter。两个COM对象创建好之后,通过调用

QueryInterface获得媒体控制、媒体事件控制、视频窗口控制三个关键接口,并调用

SetFilteGraph函数将filter graph绑定到capture graph,再运用Set Notify window函

数设置响应过滤器链路时间的Windows句柄。在句柄函数中调用

IMediaEvent::GetEvent方法用以响应队列中的事件。

② 查找并列举显示系统中的视频捕获设备,将设备名称与相应的 Capture Filter

绑定。此功能通过编写一个Find Devices (IBaseFilter**pF)函数实现,该函数返回一

个IBascFilter指针类指针。

③ 用pGraph→AddFilter(pSre,“捕获”)方法将 Capture Filter加入 Filter

Graph中,此时一个完整的过滤器图表已建立,然后调用

ICaptureGraphBuilder2::Renderstream方法继续完成各个Output Pin的连接,以视

频预览模式渲染媒体流。

④ 通过调用Setup window函数设定图像播放的窗口大小和位置。

⑤ 最后给界面上的控制按钮添加相应的pMC→Run( )或pMC→Stop( )消息指

令,即可控制视频预览的开始和暂停功能。

代码的主要过程如下:

创建最基本的组件

IGraphBuilder*PGraph;

ICaPtureGraphBuilder2*PBuilder2:

创建过滤器图构造器

CoCreateInstance(CLSID_FilterGraph,NULL,

CLSCTX--INPROC,

IID_IGraphBuilder,

(void**)&pGraph);

创建采集图构造器

CoCreatelnstance(CLSID_CaptureGraphBuilder2,NULL,

36

CLSCTX--INPROC,

IID_ICaptureGraphBuilder2,(void**)&pBuilder2);

将其关联

pBuilder2→Set Filter graph(pGraph);

通过系统设备枚举来获得视频采集设备

创建系统设备枚举器

I Create Dev Enum*p Dev Enum=NULL;

CoCreateInstance(CLSID_SystemDeviceEnum,NULL,

CLSCTX--INPROC,

IID_ICreateDevEnum,

(void**)&pDevEnum);

创建视频采集设备的枚举器

I Enum Moniker*p Class Enum=NULL;

PDevEnum→CreateClassEnumerator(

CLSID_VideoInputDevieeCategory,

&pC1assEnum,0);

ULONG uFetched;

I Moniker*p Moniker=NULL;

I Base Filter*PScr=NULL;

如果枚举到系统的视频采集设备

if(p Class Enum→Next(1,&p Moniker

&uFetched)==S_0K)

{

将枚举所得的视频源设备与过滤器pScr绑定

pMoniker→Bind To object(0,0,ID_Base Filter,

(void**)pScr);

pMoniker→Release( );

}

释放掉不用的部件

37

pClassEnum→Release( );

pDevEnum-->Release( );

最后,将选定设备加入到采集图构造器中

5.2控制和通信模块的实现

5.2.1 H.225.0呼叫信道信令的实现

H.225标准描述了无QOS保证的LAN上媒体流的打包分组与同步传输机制。

H.225对传输的控制流进行格式化,以便输出到网络接口,同时从网络接口输入报文

中检索出接收到控制流。另外,它还完成逻辑帧,顺序编号,纠错与检错功能。

实现H.225信令过程的主要类是H.323Connection类,它用于具体化两个端点之

间的H.323连接之间的细节,以描述两个端点之间的H.323连接。

当呼叫方发出请求主要是通过MakeCall( )函数来完成的,,

void*userData=NULL),它的功能是向一个远地终端提出呼叫请求,参数remote Party

代表了远地终端的地址或机器名,完整的格式为[机器名@][IP地址@][端口号],实际

上机器名和端口号是可省的,缺省的端口号为1720。Token代表了返回连接的索引号。

此函数在呼叫出现后立即返回,并启动一个后台线程。

当监听到呼叫请求后,系统自动回调Answer Call Response On Answer Call( )函

数进行握手协商。建立连接的过程是由被呼叫方发出的利用Find Connection with

Lock函数找到建立连接的索引号Token,调用Answer Call Now允许接通呼叫,这样

两个终端之间的连接就建立起来了。如果调用Answer Call Denied,呼叫被切断,连

接中断。当调用Find Connection with Lock( )函数后,必须用unlock( )函数释放连接,

否则,会出现一条被锁死的连接。

在本系统中,当Answer按钮按下,先使用Find Connection with Lock( )找出连

接,然后调用Answer Call允许接通呼叫,最后用H323 Connection::unLock( )释放连

接。

H323Connection*connection=m_endpoint. Find Connection With Lock (m_token);

if(connection= =NULL)

m_ Window( );

38

else

{

connection→Answering Call(H323connection:Answer Call Now);

connection→Unlock( );

}

5.2.2 H.245.0控制信令

H.245控制信令包括四个部分:能力交换过程,主从判别过程,逻辑信道信令过

程,呼叫释放过程。

① 能力交换过程

在端点之间建立会话以前,首先要进行能力交换。能力交换过程使端点了解对方

的接收和传输能力。由于一个端点只能处理某一种特定格式的媒体,所以在呼叫前必

须知道每个端点能支持什么类型。

一个端点用“终端能力设置”来指明它的能力,这是一个请求消息。这个消息带

有一个序号和该端点能够发送和接收的音频、视频格式类型,对发送和接收格式的指

示是分开进行的。“终端能力设置应答”消息是终端能力设置消息的应答。这个消息

中仅含有与最初收到消息中的序号相匹配的序号。如果接收到请求消息的端点发现与

该请求不同,则它就返回一个终端能力设置拒绝消息,并指明拒绝原因。如果在有效

期内还没有收到响应,则端点就会再发出一个“终端能力设置释放”消息,这是一种

指示消息,不用给以响应。

设置终端音频能力:

Set Capability(0,0,new H323_GSM0610 Capability);

Set Capability(0,0,new H323_G723 Capability(H323_G723

Capability::muLaw);

Set Capability(0,0,new H323_723 Capability(H323_G723 Capability::ALaw));

Set Capability(0,0,new H323_LPC10 Capability(*this));

设置终端视频能力:

Set Capability(0,P_MAX_INDEX,new H323_H263Capability(1,0,FALSE,

FALSE,

39

6217));

Set Capability(0,P_MAX_INDEX,new H323_H263Capability(0,1,FALSE,

FALSE,

6217));

② 主从判别过程

在Openh323中,主叫端通过函数

BOOL H245 NegMaster Slave Determination::Start(BOOL renegotiate)来启动主

从确定过程。具体过程为:

第一,设定随机值,对应于该主从确定消息。

Determination Number =pRandom::Number( )%16777216;

Reply Timer = Master Slave Determination Time out( );

state=e_Outgoing;

第二,创建一个H.245主从交换命令用于向对端发送本地的终端类型。

H323 Control PDU pdu;

第三,先假设本地是一个没有MC的终端的终端。

Master Slave Determination ( Terminal Type( )

determination Number);

第四,向对端发送主从确定的消息。

Return connection.

Write Control PDU(Pdu);

只有在两个终端拥有相同的终端类型值时,才会比较随机值的大小。获得最大随

机数的终端会成为主持者。为了决出主持者,各个端点必须交换它们的终端类型值和

随机数。通过使用“主从决定”消息和“主从决定应答”消息来完成这一动作。主从

决定过程可以由与会的任一实体通过发送主从消息发起,在这一个消息中含有终端类

型值和随机数值。接收实体把其中的终端类型值与自己的相比较,如果有必要,还要

对双方的随机数值进行比较,从而决定是谁是这次会议的主持者。最后,返回一个主

从决定应答消息。

③ 逻辑信道信令过程

打开音频逻辑信道

BOOL CMfeEndPoint::Open Audio Channel (H323Connection&connection,

40

BOOL is Encoding,

Unsigned buffer Size,

H323Audio Codec&codec)

{

Return H323EndPoint::Open Audio Channel (connection,is Encoding,buffer

Size,codec);

}

打开视频逻辑信道

Virtual BOOL H323 End Point::Open Video Channel (H323 Connection

&connection, BOOL is Encoding,H323 Video Coder&codec)

它的功能是由视频编解码器打开一条通道,H323 Video Coder类将使用该通道来

读写视频数据。此函数在建立通话连接的过程中自动被调用。参数connection是为该

通道建立的连接;is Encoding代表码流方向,当is Encoding=true代表本地视频数

据;codec是打开通道的H323Video Coder对象。在本系统中,打开本地摄像头和新建

播放设备的工作的工作也是在此函数中进行的。具体的过程是:当is Encoding二二true

时,为本地视频通道,于是打开摄像头并为其设定参数;当is Encoding二二false时,

为远地视频通信,于是新建一视频播放设备Video Device。从以上过程也可以看出,

该函数在通话连接的握手期间被调用了两次,若需要程序同时显示本地窗口和远地窗

口,只用在is Encoding为真时,再建立一个播放设备即可。

④ 呼叫释放过程

H.245呼叫释放实现函数为:H323 Connection::onH245 Command( )。

5.3视音频传输模块的实现

整个的传输过程由两个模块进行处理,第一,RTP处理模块:基于实时传输协议

(RTP),将音视频采集模块提交的多媒体数据帧,分割成若干数据单元,填充RTP报

头,按一定的速率发向目的节点;或对网络接口接收到的R开包,去掉报文头,完成

成帧的过程,提交音Z视频处理模块。在对RTP包的处理过程中,完成差错检测,

拥塞控制等功能。第二,网络接口模块:使用Winsock网络编程接口,直接同TCPTP

协议中的TCPUDP交互,利用其用户数据报协议UDP,完成网络数据的发送与接收。

41

5.3.1 RTPRTCP处理模块

视频和音频的同步非常重要,是影响视频会议系统的关键。这里需要完成的是将

视音频码流经过网络发送到目的地,如果采用相应网络接口函数直接发送的话,视音

频的同步将不能得到很好的保证,并可能会导致视音频质量的下降,所以这里采用了

将视频码流和音频码流进行RTP封装的方式,这样虽然人为的增加了发送和接收端

的延迟(增加了打包和拆包的时间),但是可以更好的实现对视音频数据流的同步。

5.3.2 RTP传输视音频信息流的实现

在程序中,主要是通过调用H323_RTPChannel中的发送(Transmit)和接收

(Receive)方法来传递媒体数据。代码如下所示:

Void H323 Logical Channel Thread::Main ( )

{

If (receiver)

Channel. Receive ( ):

Else

Channel. Transmit ( ):

}

下面具体介绍数据的发送和接收过程。一个Transmit过程可以分成两个部分:首

先是调用H323_RTPChannel::Read的方法,从Codec中读出一帧媒体数据,再调用

write Data将该数据包封装成标准的RTP分组,写入UDP套接字传送到对端主机。

首先,通过对Codec的媒体种类的确认(视频或是音频流),并确定RTP帧的大小。

然后,创建一个表现RTP帧的实体RTP_Data Frame,这里的max Frame Size表示

的是 RTP帧的承载参数,这也是RTP数据帧的重要的参数。

RTP_DataFrame frame (frames In Paeket*max Frame Size):

取出时间戳,即第一个RTP分组的第一个字节的取样时刻。确定RTP分组的净

载荷的大小(Length),确定承载的数据类型(PT)。最后,调用RTP会话的描述类的

Write Data方法,发送该RTP分组。

Data(frame):

42

如果数据发送完毕,则关闭该逻辑通道。

Connection. Close Logiea1 Channel Number(number);

该模块实现了两个功能:将音频处理模块和视频处理模块捕获下来的多媒体数据

帧,分割为若干RTP包,提交给UDP网络通讯接口模块;响应UDP网络通信接口

模块的数据到达指示,创建接受缓冲区,接收RTP包,组装多媒体数据帧,等待音

频处理模块和视频处理模块进行表现。

5.4本章小结

本章主要介绍了视频音频的采集,控制和通信模块以及和视频音频的传输过程。

视频捕获是网络视频会议等多媒体应用软件开发中最要的环节。利用DirectShow的

高可靠性及其基于COM技术的优势,可以比较简便地获得一个播放流畅、图像稳定

的视频画面。

结 论

视频会议系统是计算机网络、数据库、多媒体及通信技术的不断发展的产物,是

时代发展的产物,正成为宽带网上的发展热点。本文以基于IP的视频会议系统为研

究对象,对其中的关键技术如:视频会议系统的体系标准,音视频编解码技术,流媒

体传输技术,数据流穿越NAT技术等作了系统的研究与分析,并对部分关键技术进

行了优化和改进。在此基础上,设计了一个基于IP的点对点视频会议系统。

本文中,作者结合自己的开发实践与心得,就视频会议系统做出了以下工作:

① 对视频会议系统的发展,所使用的技术,尤其是H.323协议进行了的研究和分

析。

② 在掌握网络通信机制的基础上,对点对点视频会议系统进行了方案设计,并用

软件实现了视频音频的交互。

③ 本文提出了可靠稳定的RTP协议,保证了视音频流的实时传输。

43

由于视频会议技术涵盖内容非常广泛,而研究时间和论文篇幅有限,还有很多好

的解决思路和工作需要进一步研究和完成。在本文中,还存在以下不足,有待于改善:

① 进一步加强拥塞控制功能,使用更好的算法完善差错控制等,运用更新的音

视频编码,如H.264。

② 随着H.323协议的日益完善,基于IP的视频技术成为当今视频技术发展的主

流。在IP网络上保证足够的带宽和QOS是基于IP的视频技术走向成熟的关键。但

是,现在的网络存在无法控制带宽、端对端时延等问题,难以满足多媒体通信业务的

发展。如何加强QOS保证是基于IP协议的视频会议发展的一个关键。

③ 在视音频数据流的传输过程中,没有对传输数据进行加密,如果需要,可以

考虑在过滤器中增加一个加密解密过滤器。

参考文献

[1]

闫朝敏.基于IP分组网的视频会议系统的研究与实现[D].南京:河海大学,2003:

6-7.

[2]陈政.基于IP网络的视频会议系统的研究与实现[D].广州:华南理工大学,2001:

10-11.

[3]

陆讽,郁梅.视频会议系统及应用[J].微机发展,2000,10(5):9-11.

44

[4]

郜丽丽.基于互联网的视频会议系统的研究与实现[D].京:北京交通大学,2005:

16-18.

[5]

张江山,鲁平.视频会议系统及其应用[M].北京:北京邮电大学出版社,2002,01:

120-126.

[6] 朱志祥,李燕汪陈伍等.基于IP网络的多点视频会议系统的实现[J]通信世界,2000,

11(11):l-11.

[7]

杨静.基于Web的视频会议系统的研究与开发[D].天津:南开大学,2004:18-19.

[8]

张明德,王永东.视频会议原理及应用[M].北京希望电子出版社,1999,12:13-16.

[9]

精英科技.视频压缩与音频编码技术[M].北京:电子工业出版社,2003,01:123-126 .

[10]ITU-T Recommendation H.32I998. Packet based multimedia communications

systems[S].1998,15-17.

[11]

ITU-Recommendation H.323,Packet based multimedia communication

systems[M],1999,40.

[12]

Dearing S,Host extensions for IP 3[J],1998,20-22.

[13]

Hydromel,-Luna-Aceves.Floor Control for Multimedia Conferencing

and Collaboration[J].Multimedia Syst.,2003,5(1):23-38.

[14]

IP Network Address Translator(NAT)[J],RFC1631,1994:116-119.

[15]高扬,肖继民.NAT穿越技术研究[J].江苏通信技术,2005,21(5):1-6.

[16]

梅黎.基于软交换的NAT防火墙穿透技术研究[J].现代电信科技,2005,(1):

28-30.

[17]

张俊九.基于SIP的视频会议系统研究[J].邮电设计技术,2006,(1):42-46.

[18]

李鹏,朱光喜.视频会议中音频的QOS控制[J].计算机与通信,1999:2-46.

[19]

黄永峰.IP网络多媒体通信技术[M].北京:人民邮电出版,2003:18-19.

[20]

余萍.基于IP网络的实时视频传输技术浅析[J].电力系统通信,2002,14(13)32-35.

45

[21]

张明德,王永东.视频会议系统原理与应用[J].北京:北京希望电子出版社,1999:

32-90.

致 谢

在本论文完成之际,谨向导师彭华厦教授表示最衷心的感谢。无论是在课题的研

制阶段,还是在论文的进行阶段,彭华厦教授都给予了悉心的指导,整个论文的点点

46

滴滴,无不浸透着导师的心血和汗水。她严谨认真的工作态度,深厚的学术造诣,正

直无私的为人品格,严谨的治学风范,崇高的敬业精神,渊博的学识给我留下了深刻

的印象,令我受益匪浅。

感谢电气与信息工程学院的各位老师和同学对我学习上的无微不至的关怀和帮

助,感谢老师们对我的教育和督促,使我能学好扎实的基础知识。

感谢电科07-2班所有同学在过去4年里对我的关心和照顾,给我营造一个良好的

学习环境,陪我走过风风雨雨,这将会是我人生中一段美好的回忆,谢谢大家。

感谢3-410寝室的各位室友,4年来我们同处一室,和睦相处。感谢大家在生活

上对我的包容、理解和支持,在学习上相互帮助,共同勉励。

感谢我的父母对我的养育之恩,没有他们的辛勤付出和默默支持,就没有我今天

的成就,衷心的感谢我的父母。同时还要感谢我的女朋友一直以来对我的支持和理解,

让我能安心的完成学业。

最后,向所有曾经关心和帮助过我的亲朋好友表示诚挚的感谢。

学生签名:

日 期:

47

48

本文标签: 系统视频会议视频控制网络