|
发表于 2004-3-31
|
视频压缩基本概念:
一、有损和无损压缩:在视频压缩中有损(Lossy)和无损(Lossless)的概念与静态图像中基本类似。无损压缩也即压缩前和解压缩后的数据完全一致。多数的无损压缩都采用RLE行程编码算法。有损压缩意味着解压缩后的数据与压缩前的数据不一致。在压缩的过程中要丢失一些人眼和人耳所不敏感的图像或音频信息,而且丢失的信息不可恢复。几乎所有高压缩的算法都采用有损压缩,这样才能达到低数据率的目标。丢失的数据率与压缩比有关,压缩比越小,丢失的数据越多,解压缩后的效果一般越差。此外,某些有损压缩算法采用多次重复压缩的方式,这样还会引起额外的数据丢失。
二、帧内和帧间压缩:帧内(Intraframe)压缩也称为空间压缩(Spatial compression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。
采用帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporal compression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。帧差值(Frame differencing)算法是一种典型的时间压缩法,它通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。
三、对称和不对称编码:对称性(symmetric)是压缩编码的一个关键特征。对称意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。一般地说,压缩一段视频的时间比回放(解压缩)该视频的时间要多得多。例如,压缩一段三分钟的视频片断可能需要10多分钟的时间,而该片断实时回放时间只有三分钟。
第三部分:音频文件格式
一些音视频的参数含义:
声道:目前人们所使用的各种声场技术规范非常多,但最常见的几乎都来自三家公司,他们是Dolby(杜比)、HTX和DTS。声卡所支持的声道数是衡量声卡档次的重要指标之一,从单声道到最新的环绕立体声,下面一一详细介绍:1.单声道:单声道是比较原始的声音复制形式,早期的声卡采用的比较普遍。当通过两个扬声器回放单声道信息的时候,我们可以明显感觉到声音是从两个音箱中间传递到我们耳朵里的。这种缺乏位置感的录制方式用现在的眼光看自然是很落后的,但在声卡刚刚起步时,已经是非常先进的技术了。2.立体声:单声道缺乏对声音的位置定位,而立体声技术则彻底改变了这一状况。声音在录制过程中被分配到两个独立的声道,从而达到了很好的声音定位效果。这种技术在音乐欣赏中显得尤为有用,听众可以清晰地分辨出各种乐器来自的方向,从而使音乐更富想象力,更加接近于临场感受。立体声技术广泛运用于自Sound Blaster Pro以后的大量声卡,成为了影响深远的一个音频标准。时至今日,立体声依然是许多产品遵循的技术标准。3.准立体声:准立体声声卡的基本概念就是:在录制声音的时候采用单声道,而放音有时是立体声,有时是单声道。采用这种技术的声卡也曾在市面上流行过一段时间,但现在已经销声匿迹了。4.四声道环绕:人们的欲望是无止境的,立体声虽然满足了人们对左右声道位置感体验的要求,但是随着技术的进一步发展,大家逐渐发现双声道已经越来越不能满足我们的需求。由于PCI声卡的出现带来了许多新的技术,其中发展最为神速的当数三维音效。三维音效的主旨是为人们带来一个虚拟的声音环境,通过特殊的HRTF技术营造一个趋于真实的声场,从而获得更好的游戏听觉效果和声场定位。而要达到好的效果,仅仅依靠两个音箱是远远不够的,所以立体声技术在三维音效面前就显得捉襟见肘了,但四声道环绕音频技术则很好的解决了这一问题。四声道环绕规定了4个发音点:前左、前右,后左、后右,听众则被包围在这中间。同时还建议增加一个低音音箱,以加强对低频信号的回放处理(这也就是如今4.1声道音箱系统广泛流行的原因)。就整体效果而言,四声道系统可以为听众带来来自多个不同方向的声音环绕,可以获得身临各种不同环境的听觉感受,给用户以全新的体验。如今四声道技术已经广泛融入于各类中高档声卡的设计中,成为未来发展的主流趋势。5.5.1声道5.1声道已广泛运用于各类传统影院和家庭影院中,一些比较知名的声音录制压缩格式,譬如杜比AC-3(Dolby Digital)、DTS等都是以5.1声音系统为技术蓝本的。其实5.1声音系统来源于4.1环绕,不同之处在于它增加了一个中置单元。这个中置单元负责传送低于80Hz的声音信号,在欣赏影片时有利于加强人声,把对话集中在整个声场的中部,以增加整体效果。相信每一个真正体验过Dolby AC-3音效的朋友都会为5.1声道所折服。千万不要以为5.1已经是环绕立体声的顶峰了,更强大的7.1系统已经出现了。它在5.1的基础上又增加了中左和中右两个发音点,以求达到更加完美的境界。由于成本比较高,没有广泛普及。
一.WMA
WMA的全称是Windows Media Audio,是微软力推的一种音频格式。WMA格式是以减少数据流量但保持音质的方法来达到更高的压缩率目的,其压缩率一般可以达到1:18,生成的文件大小只有相应MP3文件的一半。此外,WMA还可以通过DRM(Digital Rights Management)方案加入防止拷贝,或者加入限制播放时间和播放次数,甚至是播放机器的限制,可有力地防止盗版。
优点
WMA 7之后的WMA支持证书加密,未经许可(即未获得许可证书),即使是非法拷贝到本地,也是无法收听的。同时,微软公司开始时宣称的:同文件比MP3体积小一倍而音质不变,也得到了兑现。事实上,这个说法,仅仅适用于低比特率的情况,另外,微软公司在WMA 9大幅改进了其引擎,实际上几乎可以在同文件同音质下比相同的MP3体积少1/3左右。
缺点
在高比率的渲染能力低下,同音源的一个320KBPS的MP3与比较192KBPS的WMA相比,音质和渲染力很容易分别出是前者较优。
二.VQF
VQF即TwinVQ(Transform-domain Weighted Interleave Vector Quantization),是由NTT(Nippon Telegraph and Telephone)与Yamaha共同开发的一种音频压缩技术。VQF的音频压缩率比标准的MPEG音频压缩率高出近一倍,可以达到18:1左右甚至更高。也就是说把一首4分钟的歌曲(WAV文件)压成MP3,大约需要4MB左右的硬盘空间,而同一首歌曲,如果使用VQF音频压缩技术的话,那只需要2MB左右的硬盘空间。因此,在音频压缩率方面,MP3和RA都不是VQF的对手。
但是VQF不支持"流",这可能也是为什么现在它完全被WMA压下去的一个主要原因.
三.MP3
MP3的全称是Moving Picture Experts Group Audio Layer III。简单的说,MP3就是一种音频压缩技术,由于这种压缩方式的全称叫MPEG Audio Layer3,所以人们把它简称为MP3。MP3是利用MPEG Audio Layer 3的技术,将音乐以1:10甚至1:12 的压缩率,压缩成容量较小的file,换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。
MP3最受争议的就是音质问题(尤其是随着WMA的普及),其高频损失很大,很多MP3编码器粗糙的编码算法不但导致高频丢失,还丢失了许多细节,类似吉他擦弦的感觉在MP3中是找不到的.在对MP3快要失望时,偶发现了Lame,它支持根据人耳遮蔽效应原理来分析波形,配合VBR技术,可以让音质达到令人吃惊的地步;其独创的心理音响模型技术保证了CD音频还原的真实性,配合VBR(动态比特率)和ABR(平均比特率)参数,编码出来的MP3音色纯厚、空间宽广、低音清晰、细节表现良好,音质几乎可以媲美CD音频,但文件体积却非常小.很多网友在使用LAME后的反映就是:立刻删除硬盘上所有的MP3和其他编码器,全部用Lame重新来过。Lame提供EXE和DLL,其中DLL是作为标准的动态运行库供其他程序调用.EXE是Command Line程序,象DOS程序一样工作,两者彼此独立,互不关联。但大家很快能发现两者编码的质量是不一样的,那是由于dll可控性差,与具备丰富调节参数的EXE版相比,其压缩出来的MP3效果稍逊一筹。但EXE是一个命令行工具,操作很麻烦,幸亏有了WinLAMEr或lameGUIxp这些Shell。只要学会使用这些Shell(是傻瓜型的,一看即会),就可以用LAME压缩出最最精彩的MP3了。再说说APS,在LAME出现以前,APS就是最好的MP3编码器,它使用的Fraunhofer IIS编码算法,这比LAME使用的编码算法要先进,在192k Bitrate(CBR)下,甚至比LAME编码的曲子要优秀,细节明显要丰富一些,但APS本身不支持VBR,当Bitrate往上提高时,音质就要比LAME编码的要差了,大部分朋友的MP3的一般都是128-192K Bitrate的,因此APS仍旧有推荐的价值。特别是有很多MP3随身听不支持VBR和256K Bitrate以上的MP3,LAME就不一定合适这些朋友了,APS就成了不错的选择,由它编码的曲子,绝对不会辱没你昂贵的PLAYER.
四.MP3PRO
MP3PRO完全是基于传统MP3编码技术的一种改良,本身最大的技术亮点就在于SBR(Spectral Band Replication频段复制),这是一种新的音频编码增强算法.它提供了改善低位率情况下音频和语音编码的性能的可能.这种方法可在指定的位率下增加音频的带宽或改善编码效率,SBR最大的优势就是在低数据速率下实现非常高效的编码.如果在高数据速率的情况下,SBR将如同虚设.当制作MP3PRO文件时,编码器将音频分为两部分。一部分是将音频数据中的低频段部分分离出来,通过传统的MP3技术而编码得出的正常的MP3音频流,此举可令到MP3编码器可以专注于低频段信号从而获得更好的压缩质量,而且原来的MP3播放器也可播放MP3PRO文件。另一部分则是将分离出来的高频段信号进行编码并嵌入到MP3流中,传统的MP3播放器会将其忽略掉,而新的MP3PRO播放器则可从中还原出高频信号,并将两者进行组合,得到高质量的全带宽的声音.官方宣称通过这样的技术,使得MP3PRO能在64kbps的编码率便可提供与128kbps的mp3相同的质量。低比特率下MP3PRO的性能很明显地比MP3要高,但是它与WMA谁胜谁负就很难说了,根据一些发烧友的评测, MP3PRO似乎略胜一些.高比特率下很少有人用到MP3PRO.
五.OGG
OGG格式的全称应该是OGG Vobis。它是一种新的音频压缩格式,类似于MP3等现有的音乐格式。但有一点不同的是,它是完全免费、开放和没有专利限制的。OGG Vobis有一个很出众的特点,就是支持多声道,随着它的流行,以后用随身听来听DTS编码的多声道作品将不会是梦想。OGG Vobis在压缩技术上比MP3好,而且它的多声道,免费,开源这些特点,使它很有可能成为一个流行的趋势,这也正是一些MP3播放器对其支持的原因
在高音质要求下,有损音频编码世界中是三足项立,分别为MP3、MPC、OGG。
Ogg Vorbis中的主要算法还是利用MDCT(修饰离散余弦变换Modified Discrete Cosine Transform )而不是用现在比较时兴的小波(wavelet)技术。Ogg的多通道编码技术,统称为立体声通道耦合Stereo Channel Coupling。而该技术实际又是由两种不同的技术组成的:channel interleaving 和 square polar mapping,而这也是Ogg能成为免费制式的一个必要条件,以往的“联合立体声Joint Stereo”的编码模式是有专利限制的。据官方声称,与其他会造成立体空间感减弱的编码模型相比,这两种技术都可以在保持编码器的灵活性的同时而不损害本来的立体声空间影像――相信配合iRiver的3d音效会有更好的表现力,而且实现的复杂程度比联合立体声方式要低。
OGG Vorbis这种编码也远比90年代开发成功的MP3先进,它可以在相对较低的数据速率下实现比MP3更好的音质!――我认为Ogg很象MD的atrac格式,特别象新的lp2编码,它能在低别特率下有着很要的音质。此外,在编码上,Ogg Vorbis是使用了VBR(可变比特率)和ABR(平均比特率)方式进行编码,所以理论上,Ogg Vorbis带来的音乐可以比采用CBR文件有更好的声音表现,当然前提是两者使用同样比特率(Bit Rate)的压缩模式――这里可以知道。Ogg Vorbis的比特率缩放功能可以在不用重新编码的情况下调节文件的相关压缩率,与此同时,Ogg文件的单位编辑能力和超越左右声道的音频流技术可以带来更为奇妙的音乐享受。Vorbis还具有比特率缩放功能,可以不用重新编码便可调节文件的比特率。
Vorbis文件可以被分成小块并以样本粒度(granularity,专业术语,指数据可以被分割的最小尺寸)进行编辑;Vorbis支持多通道(大于2)音频流并使用了独创性的处理技术;这意味着什么?这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件(目前这种软件还没有)的支持下,可以对所有的声道进行编码,而不是MP3只能编码2个声道。多声道音乐的兴起,给音乐欣赏带来了革命性的变化,尤其在欣赏交响时,会带来更多临场感。这场革命性的变化是MP3无法适应的。在以后的播放技术不断提高以后,而且人们对音质要求不断提高,Ogg的优势将更加明显。
六. MPC
MusePaCk是由德国人Andree Buschmann开发的一种完全免费的高品质音频格式。在其问世之前,Lame MP3是公认音质最好的有损压缩方案,追求音质的人对它趋之若鹜。但现在这个桂冠无疑该让给MPC了,在中高码率下,MPC可以做到比MP3更好音质。在高码率下,MPC的高频要比MP3细腻不少,可以在节省大量空间的前提下获得最佳音质的音乐欣赏,是目前最适合用于音乐欣赏的有损编码。
MPC的编码方案是在MP2的基础上改进而来。它同样采用子带编码技术,但相比MP2,它所采用的心理声学模型要优秀得多,并加入了像ANS(Adaptive Noise Shaping)、CVD(ClearVoiceDetection)等技术,甚至改变了压缩时所用的Huffman(哈夫曼)编码,以得到更大的压缩率。另外,MPC采用的是可变码率进行编码。毫无疑问,可变码率的编码效率要高于固定码率,因为前者可以合理地分配数据量,在信号复杂(微弱)时提高(降低)比特率,在得到满意的效果又能确保不错的压缩率。为了保证高音质,MPC的瞬间最大码率甚至高达1.32Mbps,这已经快接近CD的1.41Mbps了
较高比特率下(250kbps左右),MPC表现非常的出众,甚至超过了MP3,很难分辨它和原始信号有多少区别,无论从频率保留还是细节保留,以及信号强度失真来说,MPC太优秀了.但MPC并非万能的,它无法编码48khz采样率的曲子,所幸的是,这样的曲子来源很少.可惜这种格式并没有像MP3或WMA那样流行.
七.ATRAC
ATRAC(Adaptive TRansform Acoustic Coding自适应声学转换编码技术):是Sony的原创音乐压缩技术,主要用于MD Walkman的录音及播放方面。是一项基于听觉心理学领域的研究和不损伤可闻声质量的数码音频译码压缩技术,对音乐资讯有效的进行压缩,压缩的比率为原来的五分之一,因为MD使用了ATRAC压缩技术,这样的压缩大大节省了许多空间,所以 CD的碟片要120mm大小,而MD只需64mm就可以录下74分钟的音乐。
ATRAC压缩技术主要是利用了人耳的蔽遮效应,在心理声学原理上,在进行音频录入的同时,有许多外部的频段同时也会被录入,当人耳同时听到两个不同频率、不同音量的声音时,音量较小的低频及音量较小的高频连同不为人耳所察觉的频段信号都会被自动减弱或忽略不予记录,因此又可以称为适应性变换声码技术,由于近年來编码压缩技术(ATRAC的版本)越來越成熟,所以经过编码解码过程后的声音仍直逼CD,大家就不必担心音质差啦。
ATRAC将16比特44.1KHz的数字信号以频率响应轴分成52个区段(在低频时分割较细而在高频时分割较粗),根据声音心理学的原理,将声音信号中人耳听不到和对人的听力影响不大的信息给剔除出去而达到缩小声音文件的目的。利用这种原理,ATRAC可以将录音的资料量压缩为原来的五分之一(即压缩比为1:5)。
.
八. APE
APE的本质,其实它是一种无损压缩音频格式。庞大的WAV音频文件可以通过Monkey''s Audio这个软件进行“瘦身”压缩为APE。很时候它被用做网络音频文件传输,因为被压缩后的APE文件容量要比WAV源文件小一半多,可以节约传输所用的时间。更重要的是,通过Monkey''s Audio解压缩还原以后得到的WAV文件可以做到与压缩前的源文件完全一致。所以APE被誉为“无损音频压缩格式”,Monkey''s Audio被誉为“无损音频压缩软件”。与采用WinZip或者WinRAR这类专业数据压缩软件来压缩音频文件不同,压缩之后的APE音频文件是可以直接被播放的。 Monkey''s Audio会向Winamp中安装一个“in_APE.dll”插件,从而使Winamp也具备播放APE文件的能力。
和上面介绍的几款编码不同的是,这个编码提供了最好的音质保证(无损压缩)!还提供了Winamp的插件支持,可以直接用Winamp来播放.所谓无损就是指压缩后的格式和源文件在音质上并无差异,而Mp3、WMA等的编码方案是基于有损的,在损失部分音质的前提下节约存贮空间,所以说音质再好的Mp3、WMA也只能是无限接近源文件的音质。APE非常适合来编码讲究细节的独奏曲目和大动态的交响曲。向各位音乐迷们(不是歌迷)作最强烈的推荐!它的压缩比约为2:1.
九. WAV
WAV是录音时用的标准的windows文件格式,文件的扩展名为“.wav”,WAVE文件作为最经典的Windows多媒体音频格式,应用非常广泛。声道有单声道和立体声之分,采样频率一般有11kHz、22kHz和44kHz三种。
WAVE文件所占容量=(采样频率×采样位数×声道)×时间/8(1字节=8bit)。
WAV文件与MIDIMP3这类多媒体声音文件比较起来,所占的硬盘空间要大得多,但WAV文件的回放效果是最好的,WAV文件直接反映了一个声音在每个时刻的大小值,1分钟44khz采样率的WAV文件就会占用10M硬盘空间!
它通常作为制作高质量音乐的中间体
十.RM
Real Networks公司所制定的音频视频压缩规范称为Real Media,用户可以使用RealPlayer或RealOne Player对符合RealMedia技术规范的网络音频/视频资源进行实况转播并且RealMedia可以根据不同的网络传输速率制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放。这种格式的另一个特点是用户使用RealPlayer或RealOne Player播放器可以在不下载音频/视频内容的条件下实现在线播放。另外,RM作为目前主流网络视频格式,它还可以通过其Real Server服务器将其它格式的视频转换成RM视频并由Real Server服务器负责对外发布和播放。RM和ASF格式可以说各有千秋,通常RM视频更柔和一些,而ASF视频则相对清晰一些。
RM格式一开始就定位在视频流应用方面,也可以说是视频流技术的始创者。它可以在用56 K Modem拨号上网的条件下实现不间断的视频播放,当然,其图像质量和MPEG2,DIVX等相比有一定差距,毕竟要实现在网上传输不间断的视频是需要很大带宽的。
RM已经是昨日黄花,没有任何新意,低Bitrate比不过WMA,高Bitrate比不过MP3,虽然新的RM导入了ATRAC3算法,但颓势已定,很难东山再起了。
|
|