音频应用之音视频基础知识

杜聪 · 发表于 2005-5-29

一、帧率、码流与分辨率
帧率概念

一帧就是一副静止的画面，连续的帧就形成动画，如电视图象等。我们通常说帧数，简单地说，就是在1秒钟时间里传输的图片的数，也可以理解为图形处理器每秒钟能够刷新几次，通常用fps(Frames PerSecond)表示。每一帧都是静止的图象，快速连续地显示帧便形成了运动的假象。高的帧率可以得到更流畅、更逼真的动画。每秒钟帧数(fps) 愈多，所显示的动作就会愈流畅。

码流概念码流(DataRate)，是指视频文件在单位时间内使用的数据流量，也叫码率，是他是视频编码中画面质量控制中最重要的部分。同样分辨率下，视频文件的码流越大，压缩比就越小，画面质量就越高。

分辨率概念视频分辨率是指视频成像产品所成图像的大小或尺寸。常见的视像分辨率有352×288，176×144，640×480，1024×768。在成像的两组数字中，前者为图片长度，后者为图片的宽度，两者相乘得出的是图片的像素，长宽比一般为4:3。

二、用码流和时间计算流媒体文件大小

编码率/比特率直接与文件体积有关。且编码率与编码格式配合是否合适，直接关系到视频文件是否清晰。
在视频编码领域，比特率常翻译为编码率，单位是Kbps，例如800Kbps
其中， 1K=1024 1M=1024K
b 为比特(bit) 这个就是电脑文件大小的计量单位，1KB=8Kb，区分大小写，B代表字节(Byte)
s 为秒(second)
p 为每(per)
以800kbps来编码表示经过编码后的数据每秒钟需要用800K比特来表示。

1MB=8Mb=1024KB=8192Kb

Windows系统文件大小经常用B(字节)为单位表示，但网络运营商则用b(比特)，也就是为什么512K速度宽带在电脑上显示速度最快只有约64K的原因，网络运营商宣传网速的时候省略了计量单位。
完整的视频文件是由音频流与视频流2个部分组成的，音频和视频分别使用的是不同的编码率，因此一个视频文件的最终技术大小的编码率是音频编码率+视频编码率。例如一个音频编码率为128Kbps，视频编码率为800Kbps的文件，其总编码率为928Kbps，意思是经过编码后的数据每秒钟需要用928K 比特来表示。
了解了编码率的含义以后，根据视频播放时间长度，就不难了解和计算出最终文件的大小。编码率也高，视频播放时间越长，文件体积就越大。不是分辨率越大文件就越大，只是一般情况下，为了保证清晰度，较高的分辨率需要较高的编码率配合，所以使人产生分辨率越大的视频文件体积越大的感觉。

计算输出文件大小公式:
(音频编码率(KBit为单位)/8 + 视频编码率(KBit为单位)/8)× 影片总长度(秒为单位)=文件大小(MB为单位)

这样以后大家就能精确的控制输出文件大小了。
例:有一个1.5小时(5400秒)的影片，希望转换后文件大小刚好为700M
计算方法如下:
700×8÷5400×1024≈1061Kbps
意思是只要音频编码率加上视频编码率之和为1061Kb，则1个半小时的影片转换后文件体积大小刚好为700M。

至于音频编码率和视频编码率具体如何设置，就看选择的编码格式和个人喜好了，只要2者之和为1061即可。如可以设置为视频编码格式H264，视频编码率900Kbps，音频编码格式AAC，编码率161 Kbps。
与文件体积大小有关的码率是指的平均码率，因此，不论是使用固定比特一次编码方式还是使用二次(多次)动态编码方式，都是可以保证文件大小的。只有使用基于质量编码的方式的时候，文件大小才不可控制。

编码格式有很多种，在技术不断进步的情况下，针对不同的用途，产生了各种编码格式。不同编码格式的压缩率不一样，且有各自的特点，有些在低码率情况下能保持较高的画面质量，但在高码率情况下反而画面质量提示不大，有些适合在高码率情况下保持高清晰度画面，但可能在低码率情况下效果不佳。介绍常见的几种。
RMVB/RM在制定的时候主要考虑的是网络传播，目的在于利用不快的网速传播视觉可以接受的画面质量。因此，RMVB/RM编码格式的特点是较低码率下能获得较好的视频质量。

(ffmpeg -g 3 -r 3 -t 10 -b 50k -s qcif -f rv10 /tmp/b.rm 低码率低质量的高压缩转换)
但高码率的情况下反不如其他编码格式。同样是RM/RMVB后缀的文件，其内部编码格式细分还有R8/R9/R10等，但总的来说，上面所说的特点依然是存在的。只是压缩率更高了，因此RMVB没人用在高清编码领域。RMVB追求的是高压缩率，能接受的画面质量，所以经常压缩掉一些不容易注意的细节。初看画面不错，细看就发现画面不锐利，层次不分明，总给人一直模糊的感觉。 RMVB/RM后缀文件的音频编码部分同样存在这样的情况，声音压缩率很高，但只是能听，不要奢望达到声音动听的境界。RMVB的流行，一是因为REAL 的这种格式适合低速网络的传播，能以较小的文件体积获得可以接受的画面质量。二是随着RMVB的使用，开始出现功能比较完善的转码软件和解决方案，方便了视频爱好者，扩大了影片来源。但随着网速越来越快，H264等更好的编码器出现，同时也因为RMVB不适合高清视频制作，且若对于其他硬件厂家希望支持 RMVB/RM格式，就必须向REAL公司支付相当昂贵的专利费，导致很多硬件厂商放弃了对RMVB文件的支持。RMVB的文件已经不是以前那种完全压倒性的优势了。现在网络传播的视频文件已经很多都是AVI、MKV、MP4、3GP等后缀了。其中MKV等多用于高清视频文件，MP4、3GP等多用于手机和便携式设备等领域，AVI则使用范围更加广，不但在高清晰度视频文件中有AVI文件，在便携式设备领域也有AVI使用。
VCD用的视频编码格式为MPEG1，DVD的则为MPEG2，VCD和DVD都主要用于家庭影音播放，而且一般来说，VCD用的MPEG1编码为固定码率编码。DVD可以支持动态码率的MPEG2编码。为了能保证激烈变化画面的时候的清晰度，其默认编码率都比较高，VCD标准编码率为 1152Kbps，DVD开放些，根据影片播放时间，常设置为5000Kbps -8000Kbps之间，在不浪费DVD碟容量的前提下尽可能的使用较高的码率获得更高的清晰度。MPEG1和MPEG2在超低码率情况效果不佳，且过分提高码率，画面效果带来的提示也不明显。

杜聪 · 发表于 2005-5-29

1、什么是H.261编码协议

答:H.261是最早出现的视频编码建议，它采用的算法结合了可减少时间冗余的帧间预测和可减少空间冗余的DCT变换的混合编码方法，其输出码率是p× 64kbit/s。p取值较小时，只能传清晰度不太高的图像，适合于面对面的电视电话;p取值较大时(如 p＞6)，可以传输清晰度较好的会议电视图像。该标准主要针对ISDN电话线的视频会议，可视电话等，ISDN的基本速率为64kbps，可以使用多路复用(p×64kbps)。
2、什么是H.263编码协议?
答: 1996年3月ITU-T制定的H.263标准是一种用于低比特率视频业务中运动图像部分的压缩编码方法。视频编码算法的基本思想是基于ITU-T的 H.261标准，把减少空间冗余的帧内预测法和减少时间冗余的变换编码法结合起来。编码器有运动补偿能力，并有一些功能、编码方法选项。与采用全象素精度和一个环形滤波器的H.261标准的运动补偿比较，H.263标准采用了半象素精度位移估值。除了基本的视频源编码算法外，为了改善性能，它包含4个可选的编码方案:非限制运动矢量，先进预测模式，PB帧模式和基于语法的算术编码。H.263是对原有标准的修订和改进，包括图像格式、总开销和减少方块效应等。尽管这些选项使编码器复杂，但能显著改善图像的质量。
  为了提高编码效率，1997年9月ITU-T又制定了H.263+(H.263的第二版)标准，它是兼容H.263的。H.263+能更好的提高恢复图像的质量和压缩性能，有广阔的应用前景。H.263+在H.263的基础上实施了许多改进，它允许使用更多的图像格式、图像形状和时钟频率。这就增加了 H.263+应用的灵活性。另外，图像大小、形状和时钟频率可以在H.263+的比特流中给出。H.263+在H.263的基础上的另一个重要改进是采用可放缩性，它能提高视频信息在易出错、数据丢失或不同环境中的传输正确率，进一步限制图像
3、什么是H.264(MPEG-4 Part 10) 编码协议?其技术亮点是什么?
  答: H.264是ITU-T的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)的联合视频组(JVT:joint video team)开发的一个新的数字视频编码标准，它既是ITU-T的H.264(MPEG-4 Part 10) ，又是ISO/IEC的MPEG-4的第10 部分。1998年1月份开始草案征集，1999年9月，完成第一个草案，2001年5月制定了其测试模式TML-8，2002年6月的 JVT第5次会议通过了H.264(MPEG-4 Part 10) 的FCD板。
  H.264(MPEG-4 Part 10) 和以前的标准一样，也是DPCM加变换编码的混合编码模式。但它采用“回归基本”的简洁设计，不用众多的选项，获得比H.263++好得多的压缩性能;加强了对各种信道的适应能力，采用“网络友好”的结构和语法，有利于对误码和丢包的处理;应用目标范围较宽，以满足不同速率、不同解析度以及不同传输(存储)场合的需求;它的基本系统是开放的，使用无需版权。
  在技术上，H.264(MPEG-4 Part 10) 标准中有多个闪光之处，如统一的VLC符号编码，高精度、多模式的位移估计，基于4×4块的整数变换、分层的编码语法等。这些措施使得H.264 (MPEG-4 Part 10) 算法具有很的高编码效率，在相同的重建图像质量下，能够比H.263节约50%左右的码率。H.264(MPEG-4 Part 10) 的码流结构网络适应性强，增加了差错恢复能力，能够很好地适应IP和无线网络的应用。
技术亮点:
(1)分层设计
  H.264(MPEG-4 Part 10) 的算法在概念上可以分为两层:视频编码层(VCL:Video Coding Layer)负责高效的视频内容表示，网络提取层(NAL:Network Abstraction Layer)负责以网络所要求的恰当的方式对数据进行打包和传送。在VCL和NAL之间定义了一个基于分组方式的接口，打包和相应的信令属于NAL的一部分。这样，高编码效率和网络友好性的任务分别由VCL和NAL来完成。
(2)高精度、多模式运动估计
H.264(MPEG-4 Part 10) 支持1/4或1/8像素精度的运动矢量。在1/4像素精度时可使用6抽头滤波器来减少高频噪声，对于1/8像素精度的运动矢量，可使用更为复杂的8抽头的滤波器。在进行运动估计时，编码器还可选择“增强”内插滤波器来提高预测的效果。
(3)4×4块的整数变换
  H.264(MPEG-4 Part 10) 与先前的标准相似，对残差采用基于块的变换编码，但变换是整数操作而不是实数运算，其过程和DCT基本相似。这种方法的优点在于:在编码器中和解码器中允许精度相同的变换和反变换，便于使用简单的定点运算方式。也就是说，这里没有“变换误差”。变换的单位是4×4块，而不是以往常用的8×8块。由于用于变换块的尺寸缩小，运动物体的划分更精确，这样，不但变换计算量比较小，而且在运动物体边缘处的衔接误差也大为减小。
(4)统一的VLC
H.264(MPEG-4 Part 10) 中熵编码有两种方法，一种是对所有的待编码的符号采用统一的VLC(UVLC :Universal VLC)，另一种是采用内容自适应的二进制算术编码(CABAC:Context-Adaptive Binary Arithmetic Coding)。CABAC是可选项，其编码性能比UVLC稍好，但计算复杂度也高。UVLC使用一个长度无限的码字集，设计结构非常有规则，用相同的码表可以对不同的对象进行编码。这种方法很容易产生一个码字，而解码器也很容易地识别码字的前缀，UVLC在发生比特错误时能快速获得重同步。
(5)帧内预测
在先前的H.26x系列和MPEG-x系列标准中，都是采用的帧间预测的方式。在H.264(MPEG-4 Part 10) 中，当编码Intra图像时可用帧内预测。对于每个4×4块(除了边缘块特别处置以外)，每个像素都可用17个最接近的先前已编码的像素的不同加权和(有的权值可为0)来预测，即此像素所在块的左上角的17个像素。显然，这种帧内预测不是在时间上，而是在空间域上进行的预测编码算法，可以除去相邻块之间的空间冗余度，取得更为有效的压缩。
(6)面向IP和无线环境
  H.264(MPEG-4 Part 10) 草案中包含了用于差错消除的工具，便于压缩视频在误码、丢包多发环境中传输，如移动信道或IP信道中传输的健壮性
自然界中的声音非常复杂，波形极其复杂，通常我们采用的是脉冲代码调制编码，即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。

1-1 什么是采样率和采样大小(位/bit)

   声音其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用 40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子:假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。

1-2 有损和无损

   根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV 文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。

1-3 为什么要使用音频压缩技术

要算一个PCM音频流的码率是一件很轻松的事情，采样率值×采样大小值×声道数 bps。一个采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K×16×2 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低指标是不可取的，因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样，各种音频压缩编码所达到的音质和压缩比都不一样，在后面的文章中我们都会一一提到。有一点是可以肯定的，他们都压缩过。

1-4 频率与采样率的关系

   采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢?假设我们有2段正弦波信号，分别为20Hz和 20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢?结果是:20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下，记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用 48KHz的采样率，这是不可取的!这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。

1-5 流特征

   随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设自己的数字广播电台成为了现实

2-1 PCM编码

PCM 脉冲编码调制是Pulse Code Modulation的缩写。前面的文字我们提到了PCM大致的工作流程，我们不需要关心PCM最终编码采用的是什么计算方式，我们只需要知道PCM编码的音频流的优点和缺点就可以了。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码，一张光盘的容量只能容纳72分钟的音乐信息。

2-2 WAVE

这是一种古老的音频文件格式，由微软开发。WAV是一种文件格式，符合 PIFF Resource Interchange File Format规范。所有的WAV都有一个文件头，这个文件头音频流的编码参数。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持 ACM规范的编码都可以为WAV的音频流进行编码。很多朋友没有这个概念，我们拿AVI做个示范，因为AVI和WAV在文件结构上是非常相似的，不过 AVI多了一个视频流而已。我们接触到的AVI有很多种，因此我们经常需要安装一些Decode才能观看一些AVI，我们接触到比较多的DivX就是一种视频编码，AVI可以采用DivX编码来压缩视频流，当然也可以使用其他的编码压缩。同样，WAV也可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，和AVI一样，只要安装好了相应的 Decode，就可以欣赏这些WAV了。
在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV 也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

2-3 MP3编码

   MP3作为目前最为普及的音频压缩格式，为大家所大量接受，各种与MP3相关的软件产品层出不穷，而且更多的硬件产品也开始支持MP3，我们能够买到的 VCD/DVD播放机都很多都能够支持MP3，还有更多的便携的MP3播放器等等，虽然几大音乐商极其反感这种开放的格式，但也无法阻止这种音频压缩的格式的生存与流传。MP3发展已经有10个年头了，他是MPEG(MPEG:Moving Picture EXPerts Group) Audio Layer-3的简称，是MPEG1的衍生编码方案，1993年由德国Fraunhofer IIS研究院和汤姆生公司合作发展成功。MP3可以做到12:1的惊人压缩比并保持基本可听的音质，在当年硬盘天价的日子里，MP3迅速被用户接受，随着网络的普及，MP3被数以亿计的用户接受。MP3编码技术的发布之初其实是非常不完善的，由于缺乏对声音和人耳听觉的研究，早期的mp3编码器几乎全是以粗暴方式来编码，音质破坏严重。随着新技术的不断导入，mp3编码技术一次一次的被改良，其中有2次重大技术上的改进。
VBR:MP3 格式的文件有一个有意思的特征，就是可以边读边放，这也符合流媒体的最基本特征。也就是说播放器可以不用预读文件的全部内容就可以播放，读到哪里播放到哪里，即使是文件有部分损坏。虽然mp3可以有文件头，但对于mp3格式的文件却不是很重要，正因为这种特性，决定了MP3文件的每一段每一帧都可以单独的平均数据速率，而无需特别的解码方案。于是出现了一种叫VBR(Variable bitrate，动态数据速率)的技术，可以让MP3文件的每一段甚至每一帧都可以有单独的bitrate，这样做的好处就是在保证音质的前提下最大程度的限制了文件的大小。这种技术的优越性是显而易见的，但要运用确实是一件难事，因为这要求编码器知道如何为每一段分配bitrate，这对没有波形分析的编码器而言，这种技术如同虚设。正是如此，VBR技术并没有一出现就显得光彩夺目。

专家们通过长期的声学研究，发现人耳存在遮蔽效应。声音信号实际是一种能量波，在空气或其他媒介中传播，人耳对声音能量的多少即响度或声压最直接的反应就是听到这个声音的大小，我们称它为响度，表示响度这种能量的单位为分贝(dB)。即使是同样响度的声音，人们也会因为它们频率不同而感觉到声音大小不同。人耳最容易听到的就是4000Hz的频率，不管频率是否增高或降低，即使是响度在相同的情况下，大家都会觉得声音在变小。但响度降到一定程度时，人耳就听不到了，每一个频率都有着不同的值。

   可以看到这条曲线基本成一个V字型，当频率超过15000Hz时，人耳的会感觉到声音很小，很多听觉不是很好的人，根本就听不到20000Hz的频率，不管响度有多大。当人耳同时听到两个不同频率、不同响度的声音时，响度较小的那个也会被忽略，例如:在白天我们很难听到电脑中散热风扇的声音，晚上却成了噪声源，根据这种原理，编码器可以过滤掉很多听不到的声音，以简化信息复杂度，增加压缩比，而不明显的降低音质。这种遮蔽被称为同时遮蔽效应。但声音A被声音B遮蔽，如果A处于B为中心的遮蔽范围内，遮蔽会更明显,这个范围叫临界带宽。每一种频率的临界带宽都不一样，频率越高的临界带宽越宽。

   频率(Hz) 临界带宽(Hz) 频率(Hz) 临界带宽(Hz)
50 80 1850 280
150 100 2150 320
350 100 2500 380
450 110 3400 550
570 120 4000 700
700 140 4800 900
840 150 5800 1100
1000 160 7000 1300
1170 190 8500 1800
1370 210 10500 2500
1600 240 13500 3500

根据这种效应，专家们设计出人耳听觉心理模型，这个模型被导入到mp3编码中后，导致了一场翻天覆地的音质革命，mp3编码技术一直背负着音质差的恶名，但这个恶名现在已经逐渐被洗脱。到了此时，一直被埋没的VBR技术光彩四射，配合心理模型的运用便现实出强大的诱惑力与杀伤力。
长期来，很多人对MP3印象不好，更多人认为WMA的最佳音质要好过MP3，这种说法是不正确的，在中高码率下，编码得当的MP3要比WMA优秀很多，可以非常接近CD音质，在不太好的硬件设备支持下，没有多少人可以区分两者的差异，这不是神话故事，尽管你以前盲听就可以很轻松区分MP3和CD，但现在你难保证你可以分辨正确。因为MP3是优秀的编码，以前被埋没了。

2-4 OGG编码

网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手!Ogg Vorbis究竟什么来头呢?OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案!OGG的信念就是:OPEN!FREE!Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。

Ogg Vorbis是高质量的音频编码方案，官方数据显示:Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质!Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么?这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件(目前这种软件还没有)的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。

和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和 MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR。

2-5 MPC 编码

MPC是又是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质!MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

2-6 mp3PRO 编码

2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于 SBR(Spectral Band Replication 频段复制)，这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器(播放器)产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平(注:在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的)，这和官方声称的64kbps的mp3PRO可以媲美128kbps的 mp3的宣传基本是吻合的。

杜聪 · 发表于 2005-5-29

2-7 WMA

WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，是网络!竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过 Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

2-8 RA

RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。

2-9 APE

APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。

主流音频格式的特点及其适应性

各种各样的音频编码都有其技术特征及不同场合的适用性，我们大致讲解一下如何去灵活应用这些音频编码。

4-1 PCM编码的WAV

前面就提到过，PCM编码的WAV文件是音质最好的格式，Windows平台下，所有音频软件都能够提供对她的支持。Windows提供的WinAPI中有不少函数可以直接播放wav，因此，在开发多媒体软件时，往往大量采用wav，用作事件声效和背景音乐。PCM编码的wav可以达到相同采样率和采样大小条件下的最好音质，因此，也被大量用于音频编辑、非线性编辑等领域。

特点:音质非常好，被大量软件所支持。

适用于:多媒体开发、保存音乐和音效素材。

4-2 MP3

MP3具有不错的压缩比，使用LAME编码的中高码率的mp3，听感上已经非常接近源WAV文件。使用合适的参数，LAME编码的MP3很适合于音乐欣赏。由于MP3推出年代已久，加之还算不错的音质及压缩比，不少游戏也使用mp3做事件音效和背景音乐。几乎所有著名的音频编辑软件也提供了对MP3的支持，可以将mp3象wav一样使用，但由于mp3编码是有损的，因此多次编辑后，音质会急剧下降，mp3并不适合保存素材，但作为作品的demo确实相当优秀的。mp3长远的历史和不错的音质，使之成为应用最广的有损编码之一，网络上可以找到大量的mp3资源，mp3player日渐成为一种时尚。不少 VCDPlayer、DVDPlayer甚至手机都可以播放mp3，mp3是被支持的最好的编码之一。MP3也并非完美，在较低码率下表现不好。MP3也具有流媒体的基本特征，可以做到在线播放。

特点:音质好，压缩比比较高，被大量软件和硬件支持，应用广泛。

适用于:适合用于比较高要求的音乐欣赏。

杜聪 · 发表于 2005-5-31

4-3 OGG

Ogg是一种非常有潜力的编码，在各种码率下都有比较惊人的表现，尤其中低码率下。Ogg除了音质好之外，她还是一个完全免费的编码，这对ogg被更多支持打好了基础。Ogg有着非常出色的算法，可以用更小的码率达到更好的音质，128kbps的Ogg比192kbps甚至更高码率的mp3还要出色。 Ogg的高音具有一定的金属味道，因此在编码一些高频要求很高的乐器独奏时，Ogg的这个缺陷会暴露出来。OGG具有流媒体的基本特征，但现在还没有媒体服务软件支持，因此基于ogg的数字广播还无法实现。Ogg目前的被支持的情况还不够好，无论是软件的还是硬件的，都无法和mp3相提并论。

特点:可以用比mp3更小的码率实现比mp3更好的音质，高中低码率下均具有良好的表现。

适用于:用更小的存储空间获得更好的音质(相对MP3)

4-4 MPC

和OGG一样，MPC的竞争对手也是mp3，在中高码率下，MPC可以做到比竞争对手更好音质，在中等码率下，MPC的表现不逊色于Ogg，在高码率下，MPC的表现更是独孤求败，MPC的音质优势主要表现在高频部分，MPC的高频要比MP3细腻不少，也没有Ogg那种金属味道，是目前最适合用于音乐欣赏的有损编码。由于都是新生的编码，和Ogg际遇相似，也缺乏广泛的软件和硬件支持。MPC有不错的编码效率，编码时间要比OGG和LAME短不少。

特点:中高码率下，具有有损编码中最佳的音质表现，高码率下，高频表现极佳

适用于:在节省大量空间的前提下获得最佳音质的音乐欣赏。

4-6 WMA

微软开发的WMA同样也是不少朋友所喜爱的，在低码率下，有着好过mp3很多的音质表现，WMA的出现，立刻淘汰了曾经风靡一时的VQF编码。有微软背景的WMA获得了很好的软件及硬件支持，Windows Media Player就能够播放WMA，也能够收听基于WMA编码技术的数字电台。因为播放器几乎存在于每一台PC上，越来越多的音乐网站都乐意使用WMA作为在线试听的首选了。除了支持环境好之外，WMA在64-128kbps码率下也具有相当出色的表现，虽然不少要求较高的朋友并不够满意，但更多要求不高的朋友接受了这种编码，WMA很快的普及开了。

特点:低码率下的音质表现难有对手

适用于:数字电台架设、在线试听、低要求下的音乐欣赏

4-7 mp3PRO

作为mp3的改良版本的mp3PRO表现出了相当不错的素质，高音丰满，虽然mp3PRO是通过SBR技术在播放过程中插入的，但实际听感相当不错，虽然显得有点单薄，但在64kbps的世界里已经没有对手了，甚至超过了128kbps的mp3，但很遗憾的是，mp3PRO的低频表现也象mp3一样的破，所幸的是，SBR的高频插值可以或多或少的掩盖掉这个缺陷，因此mp3PRO的低频弱势反而不如WMA那么明显。大家可以在使用RCA mp3PRO Audio Player的PRO开关来切换PRO模式和普通模式时深深的感觉到。整体而言，64kbps的mp3PRO达到了128kbps的mp3的音质水平，在高频部分还略有胜出。

特点:低码率下的音质之王

适用于:低要求下的音乐欣赏

4-8 APE

一种新兴的无损音频编码，可以提供50-70%的压缩比，虽然比起有损编码来太不值得一提了，但对于追求完美注意的朋友简直是天大的福音。APE可以做到真正的无损，而不是听起来无损，压缩比也要比类似的无损格式要好。

特点:音质非常好。

适用于:最高品质的音乐欣赏及收藏

MPEG提供三种音频压缩编码的等级，分别为I，II和III级(Level I、Level II、Level III)。I级最简单，其目标是压缩后每声道位数据率为192Kb/s。II级比I级精度高一些，压缩后每声道位数据率为128Kb/s。III级增加了不定长编码、霍夫曼编码等一些先进的算法，可获得非常低的数据率和较高的保真度，压缩后每声道的位数据率为64Kb/s。如果要获得每声道64Kb/s的数据率，采用III级编码比采样II级编码的保真度好;要获得每声道128Kb/s的数据率，采用III级和II级编码的效果类似，但III级和II级都比I级的效果好。每声道128Kb/s的数据率或双声道256Kb/s的数据率可以提供优质的保真度，因此采用II级压缩编码对高保真、立体声音频足矣。

帐号		自动登录	找回密码
密码			快速注册

[音视频] 音频应用之音视频基础知识

相关帖子