admin管理员组

文章数量:1531479

2024年7月18日发(作者:)

H.264

H.264是ITU-T以H.26x系列为名称命名的视频编解码技术标准之一。国际上制定视频编解码技术的组织有两个,

一个是“国际电联(ITU-T)”,它制定的标准有H.261、H.263、H.263+等,另一个是“国际标准化组织(ISO)”它制定

的标准有MPEG-1、MPEG-2、MPEG-4等。而H.264则是由两个组织联合组建的联合视频组(JVT)共同制定的新数

字视频编码标准,所以它既是ITU-T的H.264,又是ISO/IEC的MPEG-4高级视频编码(AdvancedVideoCoding,AVC),

而且它将成为MPEG-4标准的第10部分。因此,不论是MPEG-4AVC、MPEG-4Part10,还是ISO/IEC14496-10,都是

指H.264。

H.264是国际标准化组织(ISO)和国际电信联盟(ITU)共同提出的继MPEG4之后的新一代数字视频压缩格式,

它既保留了以往压缩技术的优点和精华又具有其他压缩技术无法比拟的许多优点。[4]

1.低码率(LowBitRate):和MPEG2和MPEG4ASP等压缩技术相比,在同等图像质量下,采用H.264技术压缩

后的数据量只有MPEG2的1/8,MPEG4的1/3。[4]

显然,H.264压缩技术的采用将大大节省用户的下载时间和数据流量收费。[4]

2.高质量的图象:H.264能提供连续、流畅的高质量图象(DVD质量)。[4]

3.容错能力强:H.264提供了解决在不稳定网络环境下容易发生的丢包等错误的必要工具。[4]

4.网络适应性强:H.264提供了网络抽象层(NetworkAbstractionLayer),使得H.264的文件能容易地在不同网

络上传输(例如互联网,CDMA,GPRS,WCDMA,CDMA2000等)。[4]

H.264最大的优势是具有很高的数据压缩比率,在同等图像质量的条件下,H.264的压缩比是MPEG-2的2倍以

上,是MPEG-4的1.5~2倍。举个例子,原始文件的大小如果为88GB,采用MPEG-2压缩标准压缩后变成3.5GB,

压缩比为25∶1,而采用H.264压缩标准压缩后变为879MB,从88GB到879MB,H.264的压缩比达到惊人的102∶1。

低码率(LowBitRate)对H.264的高的压缩比起到了重要的作用,和MPEG-2和MPEG-4ASP等压缩技术相比,H.264

压缩技术将大大节省用户的下载时间和数据流量收费。尤其值得一提的是,H.264在具有高压缩比的同时还拥有高

质量流畅的图像,正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少,也更加经济。

H.263

H.263是由ITU-T制定的视频会议用的低码率视频编码标准,属于视频编解码器。H.263最初设计为基于H.324

的系统进行传输(即基于公共交换电话网和其它基于电路交换的网络进行视频会议和视频电话)。后来发现H.263

也可以成功的应用与H.323(基于RTP/IP网络的视频会议系统),H.320(基于综合业务数字网的视频会议系统),RTSP

(流式媒体传输系统)和SIP(基于因特网的视频会议)。

H.263标准提供了一种取代增加带宽的高性价比途径,因此利用IP传输视频时,用户不必将网络升级到千兆以

太网。在视频压缩领域中有两类技术:多家生产商开发的专有压缩算法;H.263和包括MotionJPEG在内的MPEG系

列等基于标准的技术。

虽然实际应用(无论是安全应用、e-learning或视频会议)将最终决定技术的采用,但每一类技术中仍有不同的选

择。

两种最流行的基于标准的技术是MotionJPEG和H.263。

MotionJPEG

该技术通常被称作MJPEG,是MPEG的“远亲”,并且常被用在数字录像机中。MJPEG一般被用在物理安全环境

中,将来自闭路电视摄像机的模拟视频转换为可存储在硬盘上的数字流。MJPEG具有发送高质量图像的能力,但是

需要大量的带宽(高达T-1线路的带宽)来生成全运动视频。与MPEG不同,MJPEG不使用帧间(interframe)编码,并

且更容易用非线性编辑器进行编辑。

但是,MJPEG图像属于占用最大的数字媒介空间的数字图像之一,需要大量的磁盘空间来满足今天大多数企业

的需要,在物理安全环境应用中效率很低。

H.263使用户可以扩展带宽利用率,可以低达128Kbps的速率实现全运动视频(每秒30帧)。H.263以其灵活性

以及节省带宽和存储空间的特性,具有低总拥有成本并提供了迅速的投资回报。H.263是为以低达20K到24Kbps带

宽传送视频流而开发的,基于H.261编解码器来实现。但是,原则上它只需要一半的带宽就可取得与H.261同样的

视频质量。

MPEG-2

MPEG-2音频是在1994年11月为数字电视而提出来的,其发展分为三个阶段:

第一阶段是对MPEG-1增加了低采样频率,有16KHZ,22.05KHZ,以及24KHZ。

第二阶段是对MPEG-1实施了向后兼容的多声道扩展,将其称为MPEG-2BC。支持单声道,双声道,多声道等

编码。并附加“低频加重”扩展声道,从而达到五声道编码。

第三阶段是向后不兼容,将其称为MPEG-2AAC先进音频编码。采样频率可以低至8KHZ;而高至96KHZ范围内

的1-48个通道可选的高音质音频编码。

技术介绍

MPEG-2制定于1994年,设计目标是高级工业标准的图象质量以及更高的传输率。MPEG-2所能提供的传输率

在3-10Mbits/sec间,其在NTSC制式下的分辨率可达720X486,MPEG-2也可提供并能够提供广播级的视像和CD级

的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可

有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的

数据,如VCD。

同时,由于MPEG-2的出色性能表现,已能适用于HDTV,使得原打算为HDTV设计的MPEG-3,还没出世就被

抛弃了。(MPEG-3要求传输速率在20Mbits/sec-40Mbits/sec间,但这将使画面有轻度扭曲)。除了作为DVD的指定

标准外,MPEG-2还可用于为广播,有线电视网,电缆网络以及卫星直播(DirectBroadcastSatellite)提供广播级的数字

视频。

MPEG-1

MPEG-1是MPEG组织制定的第一个视频和音频有损压缩标准。视频压缩算法于1990年定义完成。1992年底,

MPEG-1正式被批准成为国际标准。MPEG-1是为CD光盘介质定制的视频和音频压缩格式。一张70分钟的CD光盘

传输速率大约在1.4Mbps。而MPEG-1采用了块方式的运动补偿、离散余弦变换(DCT)、量化等技术,并为1.2Mbps

传输速率进行了优化。MPEG-1随后被VideoCD采用作为核心技术。VCD的分辨率只有约352×240,并使用固定的比

特率(1.15Mbps),因此在播放快速动作的视频时,由于数据量不足,令压缩时宏区块无法全面调整,结果使视频

画面出现模糊的方块。因此MPEG-1的输出质量大约和传统录像机VCR相当,这也许是VideoCD在发达国家未获成

功的原因。MPEG-1音频分三代,其中最著名的第三代协议被称为MPEG-1Layer3,简称MP3,目前已经成为广泛流

传的音频压缩技术。MPEG-1音频技术在每一代之间,在保留相同的输出质量之外,压缩率都比上一代高。第一代

协议MP1被应用在LD作为记录数字音频以及飞利浦公司的DGC上;而第二代协议MP2后来被应用于欧洲版的DVD

音频层之一。

AAC

AAC(AdvancedAudioCoding),中文称为“高级音频编码”,出现于1997年,基于MPEG-2的音频编码技术。由

诺基亚,苹果等公司共同开发,目的是取代MP3格式。2000年,MPEG-4标准出现后,AAC重新集成了其特性,加

入了SBR技术和PS技术,为了区别于传统的MPEG-2AAC又称为MPEG-4AAC。

AdvancedAudioCoding。一种专为声音数据设计的文件压缩格式,与Mp3不同,它采用了全新的算法进行编码,

更加高效,具有更高的“性价比”。利用AAC格式,可使人感觉声音质量没有明显降低的前提下,更加小巧。AAC格

式可以用苹果iTunes转换或千千静听(六组件)。

苹果ipod、诺基亚手机也支持AAC格式的音频文件。

优点:相对于mp3,AAC格式的音质更佳,文件更小。

不足:AAC属于有损压缩的格式,与时下流行的APE[1]、FLAC等无损格式相比音质存在“本质上”的差距。加之,

传输速度更快的USB3.0和16G以上大容量MP3正在加速普及,也使得AAC头上“小巧”的光环不复存在了。

前景:以发展的眼光来看,正如“高清”正在被越来越多的人所接受一样,“无损”必定是未来音乐格式的绝对主

流。AAC这种“有损”格式的前景不容乐观。

Ogg

Ogg全称应该是OGGVobis(oggVorbis)是一种新的音频压缩格式,类似于MP3等的音乐格式。Ogg是完全免费、

开放和没有专利限制的。OggVorbis文件的扩展名是。OGG。Ogg文件格式可以不断地进行大小和音质的改良,而不

影响旧有的编码器或播放器。

Ogg全称应该是OGGVorbis,是一种新的音频压缩格式,类似于MP3等的音乐格式。但有一点不同的是,它是

完全免费、开放和没有专利限制的。OGGVorbis有一个特点是支持多声道,随着它的流行,以后用随身听来听DTS

编码的多声道作品将不会是梦想。

Vorbis是这种音频压缩机制的名字,而Ogg则是一个计划的名字,该计划意图设计一个完全开放性的多媒体系

统。

OggVorbis文件的扩展名是.OGG。这种文件的设计格式是非常先进的。创建的OGG文件可以在未来的任何播放

器上播放,因此,这种文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。

优点

MP3是有损压缩格式,因此压缩后的数据与标准的CD音乐相比是有损失的。VORBIS也是有损压缩,但通过使

用更加先进的声学模型去减少损失,因此,同样位速率(BitRate)编码的OGG与MP3相比听起来更好一些。另外,

还有一个原因,MP3格式是受专利保护的。如果你想使用MP3格式发布自己的作品,则需要付给Fraunhofer(发明

MP3的公司)专利使用费。而VORBIS就完全没有这个问题。对于乐迷来说,使用OGG文件的显著好处是可以用更

小的文件获得优越的声音质量。而且,由于OGG是完全开放和免费的,制作OGG文件将不受任何专利限制,可望

可以获得大量的编码器和播放器。这也是为何现在MP3编码器如此少而且大多是商业软件的原因,因为Fraunhofer

要收取专利使用费。

FLAC

FLAC即是FreeLosslessAudioCodec的缩写,中文可解为无损音频压缩编码。FLAC是一套著名的自由音频压缩编

码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频资讯,所以可以还原

音乐光盘音质。现在它已被很多软件及硬件音频产品所支持。

FLAC[1]与MP3相仿,都是音频压缩编码,但FLAC是无损压缩,也就是说音频以FLAC编码压缩后不会丢失任

何信息,将FLAC文件还原为WAV文件后,与压缩前的WAV文件内容相同。这种压缩与ZIP的方式类似,但FLAC

的压缩比率大于ZIP和RAR,因为FLAC是专门针对PCM音频的特点设计的压缩方式。而且可以使用播放器直接播

放FLAC压缩的文件,就象通常播放你的MP3文件一样(现在已经有许多汽车播放器和家用音响设备支持FLAC,在

FLAC的网站上你可以找到这些设备厂家的链接)。

FLAC是免费的并且支持大多数的操作系统,包括Windows,基于UnixLike内核((Linux,BSD,Solaris,IRIX,AIX

等)而开发的系统,BeOS,OS/2,Amiga。并且FLAC提供了在开发工具autotools,MSVC,WatcomC,ProjectBuilder

上的build系统。

现各大网站都有FLAC音乐下载,发布者一般是购买CD后把.cda文件直接转换成.flac,以保证光盘的原无损质

量。

ac3

AC-3发展当初是为了应用在电影院上的,AC-3音效因为胶卷的空间实在有限,所以AC-3音效的资料是存放在

胶卷上,齿孔与齿孔的中间,这部分的空间实在太小了,所以杜比的工程师只好将他们认为人耳听不到的地方加以

删除,藉以节省空间,这种破坏性的压缩还是会造成失真的,但是为了迁就原有器材上的限制,这也是逼不得已的

做法。

AC-3采用6只喇叭模式,除了超重低音部分外,其馀皆是全频段Stereo声道,48KHz,16bit,且现场拍摄时每个

声道皆是独立麦克风来录制,所以AC-3的后环绕声道拥有完整的定位能力。

AC-3资料的流量,两声道是192Kbps,大约是未压缩资料的8分之一大小,5.1声道的流量是384Kbps~448Kbps,

最高可提升到640Kbps,越大的资料流量代表越小的压缩比例,音质相对的会更好,可听到的细节也会多,但

DolbyAC-3将S/N比控制的很好,所以影响的重点就是可听到的细节多寡与否了

DolbySurroundDigitalAudioCoding-3

1994年,日本先锋公司宣布与美国杜比实验室合作研制成功一种崭新的环绕声制式,并命名为“杜比AC-3”

(DolbySurroundAudioCoding-3)。1997年初,杜比实验室正式将“杜比AC-3环绕声”改为“杜比数码环绕声”

(DolbySurroundDigital),我们常称为DolbyDigital。

它是杜比公司开发的新一代家庭影院多声道数字音频系统。杜比定向逻辑系统是一个模拟系统。它的四个声道

是从编码后的两个声道分解出来的,因此难免有分离度不佳、信噪比不高,对环绕声缺乏立体感,并且环绕声的频

带窄等缺点。AC(AudioCoding)指的是数字音频编码,它抛弃了模拟技术,采用的是全新的数字技术。

杜比数字AC-3提供的环绕声系统由五个全频域声道加一个超低音声道组成,所以被称作5.1个声道。五个声道

包括前置的"左声道"、"中置声道"、"右声道"、后置的"左环绕声道"和"右环绕声道"。这些声道的频率范围均为全频

域响应3-20000Hz。第六个声道也就是超低音声道包含了一些额外的低音信息,使得一些场景如爆炸、撞击声等的

效果更好。由于这个声道的频率响应为3-120Hz,所以称"5.1"声道。6个声道的信息在制作和还原过程中全部数字

化,信息损失很少,全频段的细节十分丰富

杜比数字AC-3是根据感觉来开发的编码系统多声道环绕声。它将每一种声音的频率根据人耳的听觉特性区分

为许多窄小频段,在编码过程中再根据音响心理学的原理进行分析,保留有效的音频,删除多作的信号和各种噪声

频率,使重现的声音更加纯净,分离度极高。

杜比数字AC-3系统可用前置的左、右音箱,中置音箱产生极有深度感和定位明确的音场,用两个后置或侧置

的环绕音箱和超低音箱表现宽广壮阔的音场,而六个声道的信息在制作和还原过程中全部数字化,信息损失的很少。

全频段的细节十分丰富,具有真正的立体声。

杜比数字AC-3具有很好的兼容性,它除了可执行自身的解码外,还可以为杜比定向逻辑解码服务。因此,已

生产的杜比定向逻辑影视软件都可以使用杜比数字AC-3系统重现。由于杜比数字AC-3系统的编码非常灵活,所以

它的格式很多。已被美国采用作为高清晰电视(HDTV)音频系统,最新DVD机也包含杜比数字AC-3。因此杜比AC-3

环绕声系统可能是极有发展前途的技术。

LPCM

LPCM即线性脉冲编码调制,是一种非压缩音频数字化技术,是一种未压缩的原音重现,在普通CD、DVD及其

他各种要求最高音频质量的场合中已经得到广泛的应用。各种应用场合中的LPCM(PCM)原理是一样的,区别在于采

样频率和量化精度不同。

LPCM(PCM)(线性脉冲编码调制)

普通CD规格为16bit/44.1kHz,DVD的规格则有多种,量化精度可分为16bit、20bit、24bit,采样频率分为48kHz、

96kHz。此外,LPCM信号中可录入杜比环绕声信息,供现有的杜比定向逻辑环绕声系统使用。

VOB文件有视频、声音、字幕数据流组成。视频数据流是MPEG2格式,音频数据流是AC-3或者者LPCM、MPEG2、

MP2、DTS等等,AC3基本上是事实的标准,MPEG2多声道只在极少数2区碟上可以看到(比如In the line of fire,2

区).PCM主要用于音乐DVD,而MP2只在廉价DVD上才有.PCM是高质量无压缩数字音频,因此需要太多的空间,

并不适合用于DVD电影光碟。AC3的数据率介于192~448KBPS之间,192KBPS用于双声道,384~448KBPS用于5.1

声道。

编辑本段音频数字化

音频数字化主要有压缩与非压缩两种方式。较早出现的数字音频播放机,如CD唱机和DAT录音机,均采用线

性PCM编码来存储音乐信号,为非压缩方式。在高质量要求的音频工作站和数字录像机(如DVCPRO)上,现在也

采用非压缩的格式。

我们目前常见的MPEG、Dolby Digital、DTS等则为压缩方式。压缩分为有损压缩和无损压缩。有损压缩的目的

是提高压缩率,降低占用系统资源。可以根据实际需要选用不同的采样速率、样本分辨力(精度)和数据率。

如今杜比数字作为由FCC为美国选定的ATSC数字电视标准的一部分,为高清晰度电视(HDTV)和标准清晰度电

视(SDTV)广播的标准。MPEG为欧洲数字视频广播(DVB)、数字音频广播(DAB)和日本广播电视业的音频标准。

DVD则支持3种主要标准:Dolby digital(杜比数字)、MPEG-2和线性PCM(LPCM)。其他格式,如DTS(Digital Theatre

Sound)、SDDS(Sony Dynamic Digital Sound)等为任选格式。

声音重放技术的发展路程,是沿着单声(Monophonic)、双声道立体声(Stereophonic)到4通道立体声,再到环绕

立体声(Stereo surround),现在一般为5.1模式。其根本目的,就是更逼真地再现原声场。我国电视目前大量采用的

单声道已远远跟不上人们生活的需要。如何以量低的数据率,最有效地传送多声道、高质量的声音,是数字化的发

展方向。所谓5.1模式,即录制、解码和放声中采用5个声道:左(L)、中(C)、右(R)、左环绕(LS)、右环绕RS),

再加上一个低频效果通道(LFE),就可以达到真正的立体环绕声效果——宽阔的场景深度感和总体真实感。5.1模式为

ATSC和DVB的标准声道。

DTS

DTS是“Digital Theatre System”的缩写,是“数字化影院系统”的意思。从技术上讲,DTS与包括Dolby Digital在内

的其它声音处理系统是完全不同的。Dolby Digital是将音效数据存储在电影胶片的齿孔之间,因为空间的限制而必

须采用大量的压缩的模式,这样就不得不牺牲部分音质。DTS公司用一种简单的办法解决了这个问题,即把音效数

据存储到另外的CD-ROM中,使其与影像数据同步。这样不但空间得到增加,而且数据流量也可以相对变大,更可

以将存储音效数据的CD更换,来播放不同的语言版本。

DTS是一种用于电影和音乐的高质量多音轨环绕声技术。DTS采用声音的相关性高效的压缩数据,使采样率在

24-bit下达到192KHz。与CD相比,CD采用线性PCM编码,在16-bit下采样率仅为44.1KHz。

当将模拟声音信号转为数字信号时需要进行采样。CD由两条音轨组成,使用16-bit PCM方式每秒采样44,100

次(44.1KHz),采样可被量化为65,536(2的16次方)个级别。而24-bit 采样可被量化为16,777,216个级别。这种

巨大的差异会使声音能够被更真实的记录下来,并且更平滑、更具动态效果,使声音还原更接近于原始的效果。

DTS在DVD光盘中的使用

并非所有的杜比在DVD或光盘中都使用6声道(5.1)。杜比音轨可从单声道到6声道,大量已发布的杜比光盘

都不是6声道的,许多采用4声道甚至是单声道的。而DTS发布的都是5.1DTS高质量6声道环绕声,并在DTS数

据处理时不加入任何音效增强处理。DTS仅仅是采用高采样率并对采样使用经过大量验证的基于人类听觉特性的数

据压缩技术。

对于家庭影院的发烧友,有许多方法可将DTS加入到他们的系统中。DTS光盘已经出现了几年了,其音效非常

完美但是DTS的光盘还比较少。DTS也在光盘市场中寻求更适合的位置。

带有DTS的DVD同样也较少,它们具有比杜比更为完美的声音效果:音效更具动感并且更平滑,低音更清晰、

更深沉。

有一些CD使用DTS编码。一般采用20-bit记录,与标准的16-bit编码相比音效有明显的提高,其中决大多数

为6声道(5.1)的。

Xvid

Xvid(旧称为XviD)是一个开放源代码的MPEG-4视频编解码器,它是基于OpenDivX而编写的。Xvid是由一群

原OpenDivX义务开发者在OpenDivX于2001年7月停止开发后自行开发的。Xvid支持多种编码模式,量化

(Quantization)方式和范围控,运动侦测(Motion Search)和曲线平衡分配(Curve)等众多编码技术,对用户来

说功能十分强大。Xvid的主要竞争对手是DivX。但Xvid是开放源代码的,而DivX则只有免费(不是自由)的版本

和商用版本。

XviD是目前世界上最常用的视频编码解码器(codec),而且是第一个真正开放源代码的,通过GPL协

议发布。在很多次的codec比较中,XviD的表现令人惊奇的好,总体来说是目前最优秀、最全能的codec之一。

重要性

近五年来,XviD一直是世界上最流行的视频编码器。估计在BT(BitTorrent)和eMule上至少90%的电影、电视剧

是用XviD压制的。但是在中国的情况有些特殊,因为中国的影视发布者喜欢用RMVB格式。

扩展名

XviD的文件扩展名可以是AVI、MKV、MP4等。需要说明的是,仅从扩展名并不能看出这个视频的编码格式。

比如说一部电影是.avi格式,但是实际上的视频编码格式可以是DV Code,也可以是XviD或者其他的;音频编码格

式可以是PCM、AC3或者MP3。

MP4和MKV格式比AVI更先进,支持更多的功能,比如字幕。AVI视频的字幕需要另外的SRT文件。目前国外

绝大多数的影视资源都是AVI格式。

封装格式

封装格式(也叫容器),就是将已经编码压缩好的视频轨和音频轨按照一定的格式放到一个文件中,也就是说

仅仅是一个外壳,或者大家把它当成一个放视频轨和音频轨的文件夹也可以。说得通俗点,视频轨相当于饭,而音

频轨相当于菜,封装格式就是一个碗,或者一个锅,用来盛放饭菜的容器。

编辑本段常见格式

AVI:微软在90年代初创立的封装标准,是当时为对抗quicktime格式(mov)而推出的,只能支持固定CBR

恒定比特率编码的声音文件。

FLV:h针对于h.263家族的格式。

MKV:万能封装器,有良好的兼容和跨平台性、纠错性,可带 外挂字幕。

MOV:MOV是Quicktime封装。

MP4:主要应用于mpeg4的封装 。

RM/RMVB:Real Video,由RealNetworks开发的应用于rmvb和rm 。

TS/PS:PS封装只能在HDDVD原版。

WMV:微软推出的,作为市场竞争。

编辑本段封装格式与编码方式的对应

AVI:可用MPEG-2, DIVX, XVID, WMV3, WMV4, WMV9, H.264

WMV:可用WMV3, WMV4, WMV9

RM/RMVB:可用RV40, RV50, RV60, RM8, RM9, RM10

MOV:可用MPEG-2, MPEG4-ASP(XVID), H.264

MKV:可用所有视频编码方案

视频编解码器

视频编解码器,是指一个能够对数字视频进行压缩或者解压缩的程序或者设备。通常这种压缩属于有损数据压

缩。历史上,视频信号是以模拟形式存储在磁带上的。随着Compact Disc的出现并进入市场,音频信号以数字化方

式进行存储,视频信号也开始使用数字化格式,一些相关技术也开始随之发展起来。

原理简介

音频和视频都需要可定制的压缩方法。工程师和数学家们尝试了很多种不同的办法来试图解决这个问题。

一个复杂的平衡关系存在于以下因素之间:视频的质量、用来表示视频所需要的数据量(通常称之为码率)、编

码算法和解码算法的复杂度、针对数据丢失和错误的鲁棒性(Robustness 稳健性)、编辑的方便性、随机访问、编码

算法设计的完美性、端到端的延时以及其它一些因素。

应用领域

在日常生活中,视频编解码器的应用非常广泛。例如在DVD(MPEG-2)中,在VCD(MPEG-1)中,在各种卫星和陆

上电视广播系统中,在互联网上。在线的视频素材通常是使用很多种不同的编解码器进行压缩的,为了能够正确地

浏览这些素材,用户需要下载并安装编解码器包--一种为PC准备的编译好的编解码器组件。

由用户自己来进行视频的压缩已经随着DVD刻录机的出现而越来越风行。由于商店中贩卖的DVD通常容量比

较大(双层)而当前双层DVD刻录机还不太普及,所以用户有时候会对DVD的素材进行二次压缩使其能够在一张单面

DVD上完整地存储。

随着高科技的快速发展,为了满足了更多领域的需求,高清视频编解码器也应运而生。高清视频编解码器可应

用于:视频会议、安防监控、医疗示教、课堂录播、无人值守、庭审系统等各种环境条件下的软硬件配套服务。

设计理念

视频编解码器设计

一个典型的数字视频编解码器的第一步是将从摄像机输入的视频从RGB色度空间转换到YCbCr色度空间,而且

通常还伴有色度抽样来生成4:2:0格式的视频(有时候在隔行扫描的情况下会采用4:2:2的抽样方式)。转换到YCbCr

色度空间会带来两点好处:1)这样做部分的解除了色度信号中的相关性,提高了可压缩能力。2)这样做将亮度信号

分离出来,而亮度信号对视觉感觉是最重要的,相对来说色度信号对视觉感觉就不是那么重要,可以抽样到较低的

分辨率(4:2:0或者4:2:2)而不影响人观看的感觉。

在真正的编码之前,对空域或者时域抽样可以有效地降低原始视频数据的数据量。

输入的视频图像通常被分割为宏块分别进行编码,宏块的大小通常是16x16的亮度块信息和对应的色度块信息。

然后使用分块的运动补偿从已编码的帧对当前帧的数据进行预测。之后,使用块变换或者子带分解来减少空域的统

计相关性。最常见的变换是8x8的离散余弦变换(DCT fordiscrete cosine transform)。变换的输出系数接下来被量化,

量化后的系数进行熵编码并成为输出码流的一部分。实际上在使用DCT变换的时候,量化后的二维的系数通常使用

Zig-zag扫描将系数表示为一维的,再通过对连续0系数的个数和非0系数的大小(Level)进行编码得到一个符号,通

常也有特殊的符号来表示后面剩余的所有系数全部等于0。这时候的熵编码通常使用变长编码。

解码基本上执行和编码的过程完全相反的过程。其中不能被完全恢复原来信息的步骤是量化。这时候,要尽可

能接近的恢复原来的信息。这个过程被称为反量化,尽管量化本身已经注定是个不可逆过程。

视频编解码器的设计通常是标准化的,也就是说,有发布的文档来准确的规范如何进行。实际上,为了使编码

的码流具有互操作性(即由A编码器编成的码流可以由B解码器解码,反之亦然),仅仅对解码器的解码过程进行规

范就足够了。通常编码的过程并不完全被一个标准所定义,用户有设计自己编码器的自由,只要用户设计的编码器

编码产生的码流是符合解码规范的就可以了。因此,由不同的编码器对同样的视频源按照同样的标准进行编码,再

解码后输出图像的质量往往可能相差很多。

常用分类

常用的视频编解码器

很多视频编解码器可以很容易的在个人计算机和消费电子产品上实现,这使得在这些设备上有可能同时实现多

种视频编解码器,这避免了由于兼容性的原因使得某种占优势的编解码器影响其它编解码器的发展和推广。最后我

们可以说,并没有那种编解码器可以替代其它所有的编解码器。下面是一些常用的视频编解码器,按照它们成为国

际标准的时间排序:

MPEG-1第二部分

MPEG-1第二部分主要使用在VCD上,有些在线视频也使用这种格式。该编解码器的质量大致上和原有的VHS

录像带相当,但是值得注意的是VCD属于数字视频技术,它不会像VHS录像带一样随着播放的次数和时间而逐渐

损失质量。如果输入视频源的质量足够好,编码的码率足够高,VCD可以给出从各方面看都比VHS要高的质量。但

是为了达到这样的目标,通常VCD需要比VHS标准要高的码率。实际上,如果考虑到让所有的VCD播放机都可以

播放,高于1150kbps的视频码率或者高于352x288的视频分辨率都不能使用。大体来说,这个限制通常仅仅对一

些单体的VCD播放机(包括一些DVD播放机)有效。MPEG-1第三部分还包括了如今常见的*.mp3音频编解码器。如

果考虑通用性的话,MPEG-1的视频/音频编解码器可以说是通用性最高的编解码器,几乎世界上所有的计算机都可

以播放MPEG-1格式的文件。几乎所有的DVD机也支持VCD的播放。从技术上来讲,比起H.261标准,MPEG-1增

加了对半像素运动补偿和双向运动预测帧。和H.261一样,MPEG-1只支持逐行扫描的视频输入。

MPEG-2第二部分

MPEG-2第二部分等同于H.262,使用在DVD、SVCD和大多数数字视频广播系统和有线分布系统(cable distribution

systems)中。当使用在标准DVD上时,它支持很高的图像质量和宽屏;当使用在SVCD时,它的质量不如DVD但是

比VCD高出许多。但是不幸的是,SVCD最多能在一张CD光盘上容纳40分钟的内容,而VCD可以容纳一个小时,

也就是说SVCD具有比VCD更高的平均码率。MPEG-2也将被使用在新一代DVD标准HD-DVD和Blu-ray(蓝光光盘)

上。从技术上来讲,比起MPEG-1,MPEG-2最大的改进在于增加了对隔行扫描视频的支持。MPEG-2可以说是一个

相当老的视频编码标准,但是它已经具有很大的普及度和市场接受度。

MPEG-4第二部分

MPEG-4第二部分标准可以使用在网络传输、广播和媒体存储上。比起MPEG-2和第一版的H.263,它的压缩性

能有所提高。和之前的视频编码标准的主要不同点在于,“面向对象”(Object-oriented)的编码方法和一些其它并非用

于提高通常视频编码压缩率的技术。当然它也引入了一些提高压缩能力的技术,包括一些H.263的技术和1/4像素

的运动补偿。和MPEG-2一样,它同时支持逐行扫描和隔行扫描。

MPEG-4第十部分

MPEG-4第十部分技术上和ITU-T H.264是相同的标准,有时候也被叫做“AVC”)。这个刚刚制定完成的标准是ITU-T

VCEG和ISO/IEC MPEG合作完成的性能最优的视频编码标准,并且在已经得到了越来越多的应用。该标准引入了一

系列新的能够大大提高压缩性能的技术,并能够同时在高码率端和低码率端大大超越以前的诸标准。已经使用和将

要使用H.264技术的产品包括例如索尼公司的PSP,Nero公司的Nero Digital 产品套装,苹果公司的Mac OS X v10.4,

以及新一代DVD标准HD-DVD和蓝光光盘(Blu-ray)。

261

H.261主要在老的视频会议和视频电话产品中使用。H.261是由ITU-T开发的,第一个使用的数字视频压缩标准。

实质上说,之后的所有的标准视频编解码器都是基于它设计的。它使用了常见的YCbCr颜色空间,4:2:0的色度抽样

格式,8位的抽样精度,16x16的宏块,分块的运动补偿,按8x8分块进行的离散余弦变换,量化,对量化系数的

Zig-zag扫描,run-level符号影射以及霍夫曼编码。H.261只支持逐行扫描的视频输入。

262

H.262 是ITU-T的一个数字视频编码标准,属于视频编解码器。H.262在技术内容上和ISO/IEC的MPEG-2视频

标准(正式名称是ISO/IEC 13818-2)一致。

263

H.263主要用在视频会议、视频电话和网络视频上。在对逐行扫描的视频源进行压缩的方面,H.263比它之前的

视频编码标准在性能上有了较大的提升。尤其是在低码率端,它可以在保证一定质量的前提下大大的节约码率。

264

H.264,同时也是MPEG-4第十部分,是由ITU-T视频编码专家组(VCEG)和ISO/IEC动态图像专家组(MPEG)

联合组成的联合视频组(JVT,Joint Video Team)提出的高度压缩数字视频编解码器标准。

AVS

AVS是中国制定的音视频压缩编码标准,故准确来说,其不仅仅包括视频编码标准。它最主要的目的是通过采

用与H.264不同的专利授权方式,来避免付出大笔的专利授权费用。在技术上,AVS的视频编码部分采用的技术与

H.264非常相似,但采取了一些简化措施。这样做,其一可以回避一些非必要专利,另外据称也可以在几乎不影响

编码压缩效率的基础上,提高编解码速度。

DivX,XviD和3ivx

DivX,XviD和3ivx视频编解码器基本上使用的都是MPEG-4第二部分的技术,以后缀*.avi, *.mp4, *.ogm 或者

*.mkv 结尾的文件有一部分是使用这些视频编解码器的。

WMV

WMV(Windows Media Video)是微软公司的视频编解码器家族,包括WMV 7、WMV 8、WMV 9、WPV 10。这

一族的编解码器可以应用在从拨号上网的窄带视频到高清晰度电视(HDTV)的宽带视频。使用Windows Media Video

用户还可以将视频文件刻录到CD、DVD或者其它一些设备上。它也适用于用作媒体服务器。WMV 可以被看作是

MPEG-4的一个增强版本。最新的WMV的版本是正在SMPTE制定中的VC-1标准。WMV-9(VC-1,开发代号为“Corona”)

刚推出的时候称为VC-9,之后才被电影电视工程师协会(SMPTE)改称为VC-1(VC指Video Codec)。技术上,VC-1也

与H.264有诸多相似之处。

RealVideo

RealVideo是由RealNetworks公司开发的视频编解码器。近几年曾经有段时间的低迷,之后又获得市场的青睐。

尤其在BT电影界格外受宠。

Sorenson

Sorenson 3是由苹果公司的软件QuickTime使用的一种编解码器。很多因特网上的QuickTime格式的视频都是

这种编解码器压缩的。

Sorenson Spark是Flash MX内置的运动视频编解码器

Cinepak

Cinepak同样是由苹果公司的软件QuickTime使用的一种很老的编解码器,好处是即使很老的计算机(如486)也

都支援并且能顺利播放。

Indeo Video

Indeo Video Indeo Video 是由Intel 所研发的编解码器。

RMVB硬伤

硬伤一.RMVB不适合高清编码,10M码流画质提升有限

实际上,大家所熟悉的RMVB格式并不适合高清应用。RMVB的前身为RM格式,它们均是Real Networks公司

所制定的音频视频压缩规范,根据不同的网络传输速率,而制定出不同的压缩比率,从而实现在低速率的网络上进

行影像数据实时传送和播放,具有体积小,画质也还不错的优点。RMVB的诞生,在保证平均压缩比的基础上,采

用浮动比特率编码的方式,将较高的比特率用于复杂的动态画面(如歌舞、飞车、战争等),而在静态画面中则灵

活地转为较低的采样率,从而合理地利用了比特率资源,使RMVB最大限度地压缩了影片的大小。由于在保证基本

画质的前提下,可以获得更小的文件体积,特别适合在网络传输,因此成为最热门的网络视频格式。

但是,RMVB最大的优点也是它最致命的问题所在,其编码方式决定了RMVB的图像清晰度一般,画质很难达

到高清。RMVB格式本身特殊的“雾化”技术和动态比特率两个优势使其在低码率下能实现画质变化不大的效果,但

是,这也导致了其在高码率下效果提升空间有限。 可以说,RMVB的优势地位是在低码率下取得的,当码率超过

1Mbps后,其画质提升很小,而且是以雾蒙蒙地缺乏细节为主要特点。也就是说,面对高清应用的RMVB文件并不

是码率越高越好,10M RMVB码流比2M、5M RMVB码流的细节提升有限,但文件体积却增大了好几倍。

当网络视频发展到高清时代,RMVB的优势反而变成了劣势。对同一视频在同等画质下压缩编码,H.264等码

流的体积肯定比RMVB文件更小。也就是说720P、10M码流的RMVB视频不但文件大,其画质可能还不如更低码

率、更小文件体积的H.264码流。

由于RMVB的局限性,过去Real并没有针对高清应用的编码。 Real的高清编码HD RMVB是最近才出现的,其

官方定义的分辨率为1280*720, 码率为2Mbps(注意:不是所谓的10M)。但这样的话,在体积和网络传输上,高

清RMVB文件已经失去了RMVB固有的优势,而且与H.264、VC1等格式相比其画质并不好。2M码率的视频已经没

有优势,10M码率的RMVB文件又如何与相同码率的H.264、VC1等高清视频竞争?另外,高清RMVB的音频是跟

Mp3一样效果的那种2.0声道格式,而严格说来,高清影视的音频至少要5.1声道。

总之,由于RMVB在格式创立之初就是为非宽带的网络视频直播而生的,其图像质量和音频质量并不适合高清

的要求;其压缩算法,是偏重效率而不讲究效果的,作为RMVB封装形式,并不适合高清视频的文件配置要求。

硬伤二.720P RMVB的片源极少且画质一般

由于RMVB并不适合高清应用,目前网络上流行的RMVB片源基本都是标清及标清以下分辨率。1024X576是目

前流行RMVB片源的最高分辨率,720P的RMVB片源只有几个专业的视频网站才提供,片源数量极少,能达到10M

码流的RMVB片源更是少之又少。而且,从相关网站得知,目前存在的720P RMVB片源,大多数都是由H.264、MPEG2

或VC1格式重新编码转换过来的,转换过程中细节损失严重,画质比原码流逊色不少。

我们来看看MP4的发展历程,在其发展的头几年,只支持MP4、AVI、ASF、DAT、VOB等格式,却不支持网上

视频资源最丰富的Rm/RMVB格式,导致其一直没有被消费者广泛接受。去年随着支持RMVB格式的MP4的出现,

MP4迎来了其销量增长最快的一个阶段。可以说,RMVB格式的支持是MP4发展过程中的一个重要阶段,而丰富的

RMVB片源是MP4得到普及的最重要因素。反观720P RMVB格式,缺少了片源的支持,其能被消费者接受吗?就

像当年被Rm/RMVB打败的MP4、AVI等文件格式,MP4开始时就支持,但由于网络资源的问题一直没有被消费者

广泛接受,这次720P RMVB不是在重走它们的老路吗?

标清时代RMVB格式的流行不代表720P RMVB的流行。由于编码算法、画质等方面的固有缺陷,笔者并不看好

720P RMVB的未来。没有片源的支持,所谓的“720P高清MP4”又有何用?

硬伤三.多媒体格式兼容性差,不支持H.264格式

高清MP4对媒体格式兼容性差,除了对RMVB支持非常不错外,对AVI、WMV等格式支持均一般,画面明显

没有播放RMVB时的流畅感,很多视频不能播放,有时出现死机、卡顿现象。虽然网上70%~80%的视频资源是

RMVB格式,但分辨率到标清或以上时,AVI、WMV等文件格式的比例明显增高。对高分辨率高码率双高视频的支

持好,不仅仅意味着RMVB解码好,更要包括H.264、Divx、Xvid、VC1等解码也要好。当普通MP4都在追求全格式

解码时,高清MP4在格式兼容性上暴露的问题还是比较严重的。

高清MP4不支持网上高清片源最多的H.264格式。对于这样一台高清媒体播放器,支持的视频格式没有片源,

有片源的竟然不支持,这也是非常严重的问题。 目前,业界常用的高清编码有H.264/X.264、MPEG4、MPEG2、VC1

等格式,但在网络上能找到的720P/1080P码流大部分都是H.264编码的, H.264格式是未来高清MP4主流的视频

格式。众所周知,与RMVB相比,H.264有更高的压缩率、更复杂的算法以及更好的画质,其更适合于高清编码。

不管是蓝光DVD,还是新版的高清FLV,都采用的是H.264格式的编码。从网上的评论看到,大部分高清MP4支持

者是因为喜欢网上的高清片源(比如欧美大片、美剧、韩剧、动画等)才期待高清MP4的,不幸的是,这些高清

片源中的绝大部分都是H.264格式的,且平均码率基本在4Mbps以下。

硬伤四.不具备高清显示效果

高清MP4宣称支持符合高清标准的输出端子,其输出信号却是最普通的隔行标清信号,对不明就里的消费者

有严重误导之嫌。高清MP4不仅仅要支持高清解码,还应该支持高清显示。高清显示既可以通过本机的显示屏实

现,也可以通过高清输出端子实现。目前代表MP4最高水平800X480分辨率的显示屏肯定不符合720P的高清显示

标准,这样就要求视频输出端子与视频输出信号必须符合高清规范。色差分量端子与HDMI都是高清端子很好的选

择。但千万要注意,符合高清规范的输出端子其输出不一定是高清信号。以色差分量端子为例,其既可以输出720P

甚至1080i高清信号,也可以输出标清信号甚至是标清隔行信号。而从实际产品来看,高清MP4仅支持标清隔行信

号输出,与S-Video信号相比,2线变3线,显示效果相差无几。

笔者对高清MP4的认知与实际产品表征出来的高清概念有很大的不同。按笔者的观点它们只能算“伪高清”。其

目前的720P RMVB、10M码流的高清概念有严重误导甚至忽悠消费者的嫌疑,让老百姓花高清之价,却买不来高清

之实。因为需要大量时间和精力才得到的一些片源,无论用本机的显示屏观看,还是输出到液晶电视上,均无法得

到高清的享受。最关键的是,网上流行的那些高清视频,比如高清迷们津津乐道的大片、美剧、韩剧、动画等,绝

大部分都不是RMVB格式的,这本身就是远离市场需求与消费者感受的。

在文章的最后,笔者简单谈谈对高清MP4实际产品的看法。除了多媒体格式兼容性差、不是真正的高清媒体

播放器外,它们对RMVB格式的视频解码能力还是非常不错的,画面流畅,颜色还原好,对部分专业玩家和发烧友

来说是款不错的机子;对于广大的普通消费者来说,笔者建议购买MP4时应从产品实用性角度出发,不要被各种

概念所误导,综合权衡全格式兼容性、无色块Deblock处理效果、对双高视频码流支持程度、输出显示效果及价格

后再做选择。

本文标签: 视频压缩编码格式音频