音频基础（二）压缩编码

jincun · 发表于 2009-11-23 08:46:21

一．有损(lossy)/无损(lossless)/未压缩(uncompressed)音频格式
未压缩音频是一种没经过任何压缩的简单音频。未压缩音频通常用于影音文件的的PCM或WAV音轨。
无损压缩音频是对未压缩音频进行没有任何信息/质量损失的压缩机制。无损压缩音频一般不使用于影音世界，但是存在的格式有无损WMA或Matroska里的FLAC。
有损压缩音频尝试尽可能多得从原文件删除没有多大影响的数据，有目的地制成比原文件小多的但音质却基本一样。有损压缩音频普遍流行于影音文件，包括AC3, DTS, AAC, MPEG-1/2/3, Vorbis, 和Real Audio.
我们也来讨论下无损/有损压缩过程。只要你转换成一种有损压缩音频格式（例如wav 转MP3），质量上有损失，那么它就是有损压缩。从有损压缩音频格式转换成另一有损压缩音频格式（例如Mp3转AAC）更槽糕，因为它不仅会引入原文件存在的损失，而且第2次编码也会有损失。

二、语音(Voice)编码和音频(Audio)编码
语音编码主要是针对语音通信系统中的编码方案，应用在有线或无线通信中；音频编码是针对音乐的编码方案，主要用来更方便地实现对音乐文件进行网络传输和存储。两者的差别一方面是频带不同，另一方面是压缩要求不一样，音乐要求具有高保真度和立体感等要求。音频编码最常见的是MPEG的音频编码。
语音的编码技术通常分为三类：波形编码、参量编码和混合编码。其中，波形编码和参量编码是两种基本类型。

波形编码  是将时间域信号直接变换为数字代码，力图使重建语音波形保持原语音信号的波形形状。波形编码的基本原理是在时间轴上对模拟语音按一定的速率抽样，然后将幅度样本分层量化，并用代码表示。解码是其反过程，将收到的数字序列经过解码和滤波恢复成模拟信号。它具有适应能力强、语音质量好等优点，但所用的编码速率高，在对信号带宽要求不太严格的通信中得到应用，而对频率资源相对紧张的移动通信来说，这种编码方式显然不合适。
脉冲编码调制（PCM）和增量调制（△M），以及它们的各种改进型自适应增量调制（ADM），自适应差分编码（ADPCM）等，都属于波形编码技术。它们分别在64以及16Kbit/s的速率上，能给出高的编码质量，当速率进一步下降时，其性能会下降较快。

参量编码  又称为声源编码，是将信源信号在频率域或其它正交变换域提取特征参量，并将其变换成数字代码进行传输。具体说，参量编码是通过对语音信号特征参数的提取和编码，力图使重建语音信号具有尽可能高的可靠性，即保持原语音的语意，但重建信号的波形同原语音信号的波形可能会有相当大的差别。这种编码技术可实现低速率语音编码，比特率可压缩到2Kbit/s-4.8Kbit/s ，甚至更低，但语音质量只能达到中等，特别是自然度较低，连熟人都不一定能听出讲话人是谁。线性预测编码（LPC ）及其它各种改进型都属于参量编码。

混合编码  将波形编码和参量编码组合起来，克服了原有波形编码和参量编码的弱点，结合各自的长处，力图保持波形编码的高质量和参量编码的低速率，在4-16Kbit/s速率上能够得到高质量的合成语音。多脉冲激励线性预测编码（MPLPC ），规划脉冲激励线性预测编码（KPELPC），码本激励线性预测编码（CELP）等都是属于混合编码技术。很显然，混合编码是适合于数字移动通信的语音编码技术。

三、无线通信中常见语音编码
PHS为32kbit/s的ADPCM编码，GSM为13kbit/s的规则脉冲激励长期预测(RPE-LTP)编码，WCDMA使用的是自适应多速率编码(AMR)，cdma2000使用的是可变速率编码(IS-773，IS-127)。

1、AMR编码
  （介绍它的原因是因为手机中有使用AMR铃声）。在3G多媒体通信的发展过程中，音视频编码有了很大的发展。1999年初,3GPP采纳了由爱立信、诺基亚、西门子提出的自适应多速率(AMR)标准作为第三代移动通信中语音编解码器的标准。AMR声码器采用代数码本激励线性预测(ACELP:Algebraic Code Excited Linear Prediction)编码方式。AMR标准针对不同的应用，分别提出了AMR－NB，AMR-WB和AMR-WB+三种不同的协议。AMR-NB应用于窄带，而AMR-WB和AMR-WB+则应用于宽带通信中。
对于手机铃声，AMR－NB对应的铃声文件扩展名是.amr，AMR-WB对应铃声文件扩展名是.awb。它们不是音乐，而是录音得到的原声。

2、ADPCM编码
自适应差分脉码调制(ADPCM)是在差分脉码调制(DPCM)的基础上发展起来的。DPCM根据信号的过去样值预测下一个样值，并将预测误差加以量化、编码，而后进行传输，由于预测误差的幅度变化范围小于原信号的幅度变化范围，因此在相同量化噪声条件下，DPCM的量化比特数小于PCM，从而达到语音压缩编码的目的。ADPCM与DPCM比较，两者主要区别在于ADPCM中的量化器和预测器采用了自适应控制。同时，在译码器中多了一个同步编码调整，其作用是为了在同步级连时不产生误差积累。
20世纪80年代以来，32kb／s的ADPCM技术已日趋成熟，并接近PCM的质量，但却节省一半的信道容量，因而受到重视。1984年CCITT提出G721建议,采用动态锁定量化器，这是一种具有自适应速度控制32kb／s的自适应量化器，并将它作为国际标准化的语音编码方法。1986年又对G721建议进行了修正，称G726建议。
ADPCM不适合作音乐的编码，常用于录音。雅马哈的MMF铃声用到MIDI+PCM/ADPCM技术，其中PCM和ADPCM就是模拟音效，包括人声。

四、各种主流音频编码（或格式）的介绍

1、PCM编码
　　PCM（Pulse Code Modulation）,即脉冲编码调制，指模拟音频信号只经过采样、模数转换直接形成的二进制序列，未经过任何编码和压缩处理。PCM编码的最大的优点就是音质好，最大的缺点就是体积大。在计算机应用中，能够达到最高保真水平的就是PCM编码，在 CD、DVD以及我们常见的WAV文件中均有应用。

2、WAVE格式（铃声）
这是一种古老的音频文件格式，由微软开发。WAV对音频流的编码没有硬性规定，除了PCM之外，还有几乎所有支持ACM规范的编码都可以为WAV的音频流进行编码。WAV可以使用多种音频编码来压缩其音频流，不过我们常见的都是音频流被PCM编码处理的WAV，但这不表示WAV只能使用PCM编码，MP3编码同样也可以运用在WAV中，只要安装好了相应的Decode，就可以欣赏这些WAV了。
在Windows平台下，基于PCM编码的WAV是被支持得最好的音频格式，所有音频软件都能完美支持，由于本身可以达到较高的音质的要求，因此，WAV也是音乐编辑创作的首选格式，适合保存音乐素材。因此，基于PCM编码的WAV被作为了一种中介的格式，常常使用在其他编码的相互转换之中，例如MP3转换成WMA。

3、 MP3编码（铃声）
MP3，众所周知也就是MPEG-1 Layer 3，是一个意图达到高的压缩率同时又能保持相当不错的音质的有损音频格式。Layer 3不是MPEG Layer 1或Layer 2的新版，只是与它们不同的复杂的编码方案。现在有许多可用的MP3编码器，其中最高品质的莫过于Lame，同时它也是开源免费的。
MP3技术上支持多声道（多于2个声道），但从未实施过或者今后也不会了。事实上，你可以编码源文件为pro logic （II）的多声道文件变换成立体声MP3。
MP3有不同的采样率和比特率（注意比特率并不是量化精度，而是代表压缩比），代表不同的音质。网络上流行的MP3是44.1KHz采样率，128Kbps比特率的。下表中列出了不同品质的MP3，其中列表示SR(采样频率)，范围8KHz~48KHz，行表示BR（比特率），范围 8Kbps~320Kbps。

4、OGG编码（铃声）
网络上出现了一种叫Ogg Vorbis的音频编码，号称MP3杀手！Ogg Vorbis究竟什么来头呢？OGG是一个庞大的多媒体开发计划的项目名称，将涉及视频音频等方面的编码开发。整个OGG项目计划的目的就是向任何人提供完全免费多媒体编码方案。OGG的信念就是：OPEN！FREE！Vorbis这个词汇是特里·普拉特柴特的幻想小说《Small Gods》中的一个"花花公子"人物名。这个词汇成为了OGG项目中音频编码的正式命名。目前Vorbis已经开发成功，并且开发出了编码器。
　　Ogg Vorbis是高质量的音频编码方案，官方数据显示：Ogg Vorbis可以在相对较低的数据速率下实现比MP3更好的音质。Ogg Vorbis这种编码也远比90年代开发成功的MP3先进，她可以支持多声道，这意味着什么？这意味着Ogg Vorbis在SACD、DTSCD、DVD AUDIO抓轨软件的支持下，可以对所有的声道进行编码，而不是MP3只能编码2个声道。多声道音乐的兴起，给音乐欣赏带来了革命性的变化，尤其在欣赏交响时，会带来更多临场感。这场革命性的变化是MP3无法适应的。
　　和MP3一样，Ogg Vorbis是一种灵活开放的音频编码，能够在编码方案已经固定下来后还能对音质进行明显的调节和新算法的改良。因此，它的声音质量将会越来越好，和MP3相似，Ogg Vorbis更像一个音频编码框架，可以不断导入新技术逐步完善。和MP3一样，OGG也支持VBR(可变比特率)。

5、MPC 编码
　　MPC (Muse Pack)高比特率高保真音乐格式。是另外一个令人刮目相看的实力派选手，它的普及过程非常低调，也没有什么复杂的背景故事，她的出现目的就只有一个，更小的体积更好的音质！MPC以前被称作MP+，很显然，可以看出她针对的竞争对手是谁。但是，只要用过这种编码的人都会有个深刻的印象，就是她出众的音质。

6、mp3PRO 编码
　　2001年6月14日，美国汤姆森多媒体公司(Thomson Multimedia SA)与佛朗赫弗协会(Fraunhofer Institute)于6月14日发布了一种新的音乐格式版本，名称为mp3PRO，这是一种基于mp3编码技术的改良方案，从官方公布的特征看来确实相当吸引人。从各方面的资料显示，mp3PRO并不是一种全新的格式，完全是基于传统mp3编码技术的一种改良，本身最大的技术亮点就在于SBR（Spectral Band Replication 频段复制），这是一种新的音频编码增强算法。它提供了改善低位率情况下音频和语音编码的性能的可能。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码，与传统的编码技术不同的是，SBR更像是一种后处理技术，因此解码器的算法的优劣直接影响到音质的好坏。高频实际上是由解码器（播放器）产生的，SBR编码的数据更像是一种产生高频的命令集，或者称为指导性的信号源，这有点駇idi的工作方式。我们可以看到，mp3PRO其实是一种mp3信号流和SBR信号流的混合数据流编码。有关资料显示，SBR技术可以改善低数据流量下的高频音质，改善程度约为30%，我们不管这个30%是如何得来的，但可以事先预知这种改善可以让64kbps的mp3达到128kbps的mp3的音质水平（注：在相同的编码条件下，数据速率的提升和音质的提升不是成正比的，至少人耳听觉上是这样的），这和官方声称的64kbps的mp3PRO可以媲美128kbps的mp3的宣传基本是吻合的。

7、WMA（铃声）
　　WMA就是Windows Media Audio编码后的文件格式，由微软开发，WMA针对的不是单机市场，而是网络。竞争对手就是网络媒体市场中著名的Real Networks。微软声称，在只有64kbps的码率情况下，WMA可以达到接近CD的音质。和以往的编码不同，WMA支持防复制功能，她支持通过Windows Media Rights Manager 加入保护，可以限制播放时间和播放次数甚至于播放的机器等等。WMA支持流技术，即一边读一边播放，因此WMA可以很轻松的实现在线广播，由于是微软的杰作，因此，微软在Windows中加入了对WMA的支持，WMA有着优秀的技术特征，在微软的大力推广下，这种格式被越来越多的人所接受。

8、RA
　　RA就是RealAudio格式，这是各位网虫接触得非常多的一种格式，大部分音乐网站的在线试听都是采用了RealAudio，这种格式完全针对的就是网络上的媒体市场，支持非常丰富的功能。最大的闪烁点就是这种格式可以根据听众的带宽来控制自己的码率，在保证流畅的前提下尽可能提高音质。RA可以支持多种音频编码，包括ATRAC3。和WMA一样，RA不但都支持边读边放，也同样支持使用特殊协议来隐匿文件的真实网络地址，从而实现只在线播放而不提供下载的欣赏方式。这对唱片公司和唱片销售公司很重要，在各方的大力推广下，RA和WMA是目前互联网上，用于在线试听最多的音频媒体格式。

9、APE
　　APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持，因此这就意味着压缩后的文件不再是单纯的压缩格式，而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式，但能够做到真正无损，因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种，APE是一种有着突出性能的格式，令人满意的压缩比以及飞快的压缩速度，成为了不少朋友私下交流发烧音乐的唯一选择。

10、AMR(铃声)
AMR(Adaptive Multi-Rate)自适应多速率编码。是一种应用在手机上的一种语音压缩格式，也就是说我们用手机录音而成的文件就是这种格式的。AMR格式压缩率较高但是音质相对较差了一点。优点就是我们可以随心所欲地录制。

dashan · 发表于 2010-2-21 11:12:38

11、AAC/AAC+
  什么是AAC?
   AAC代表Advanced Audio Coding(高级音频解码)，是一种由MPEG-4标准定义的有损音频压缩格式，由Fraunhofer发展，Dolby, Sony和AT&T是主要的贡献者。它被认为是MP3的继承者。AAC能够在一条音轨中包括48条全带宽（直到96khz）音频声道，加上15条低频增强（LFE，限制到120Hz）声道，直到15条数据流并且更多。
其实，AAC的技术早在1997年就成型了，当时被称为MPEG-2 AAC，但是随着2000年MPEG-4音频标准的出台，MPEG-2 AAC被用在这一标准中，同时追加了一些新的编码特性，所以它就改称为MPEG-4 AAC。与MP3不同，AAC的技术掌握在多家厂商手中，这使得AAC编码器非常多，既有纯商业的编码器，也有完全免费的编码器。纯商业的编码器如Fraunhofer IIS的FhG、杜比公司的Dolby AAC，免费的有Free AAC、苹果公司的iTune，Nero也通过它的Nero 6提供了Nero AAC。
AAC是一种高压缩比的音频压缩算法，它的压缩比可达20:1，远远超过了AC-3、MP3等较老的音频压缩算法。一般认为，AAC格式在96Kbps码率的表现超过了128Kbps的MP3音频。AAC另一个引人注目的地方就是它的多声道特性，它支持1~48个全音域音轨和15个低频音轨。除此之外，AAC最高支持96KHz的采样率，其解析能力足可以和DVD-Audio的PCM编码相提并论，因此，它得到了DVD论坛的支持，成为了下一代DVD的标准音频编码。
AAC的家族非常庞大，有9种规格，可适应不同场合应用的需要。其中LC低复杂性规格去掉了预测和增益控制模块，降低了复杂度，提高编码效率，是目前使用得最多的规格。
目前，苹果、AT&T和RealNetworks已经开始提供收费的AAC音乐下载服务。AAC也得到了众多硬件厂商的支持，除了苹果的iPOD随身听，还有诺基亚的多款手机及松下的部分随身听产品可支持AAC音频的播放。另外，目前已经有部分MPEG-1/2解码芯片中加入了AAC解码功能，出现支持AAC音频播放的DVD影碟机肯定是迟早的事情。

  什么是HE-AAC(也称AAC+)和LC-AAC？
   AAC有两种LC AAC与HE AAC，HE AAC是较新的。LC意思是"low complexity"(低复杂性)而HE意思是 "high efficiency"(高效性)。
HE-AAC也称之为AAC SBR/AAC+/aacplus等。注意HE-AAC注重于低码流的编码并很适合多声道文件（更小的文件尺寸）。
从学术上讲，HE-AAC混合了AAC与SBR技术，处理低比特率能有较好的效果。SBR代表的是Spectral Band Replication(频段复制)。SBR的关键是在低码流下提供全带宽的编码而不会产生产生多余的信号。传统认为音频编码在低码流下意味着减少带宽和降低采样率或产生令人不快的噪音信号。SBR解决问题的方法是让核心编码去编码低频信号，而SBR解码器通过分析低频信号产生高频信号和一些保留在比特流中的指导信号（通常码流极低，~2 kbps）。这也是为什么被叫做Spectral Band Replication的原因，它只是增加音频的带宽，而非重建。(类似的技术也用在mp3 pro 64kbps能媲美128kbps的mp3就是这道理)

  MP4与AAC
   MP4最初是一种音频格式，和MPEG-4没有太大的关系，就像MP3和MPEG-3没有关系一样。MP3是MPEG-1 Audio Layer 3 的缩写；而MP4是MPEG-2 AAC，完完全全是一种音频压缩格式，增加了诸如对立体声的完美再现、多媒体控制、降噪等新特性，最重要的是，MP4通过特殊的技术实现数码版权保护，这是MP3所无法比拟的。
现在市面上的MP4多数偏向于多媒体播放器，能够播放AAC的，可以说是凤毛麟角。甚至有媒体把MP4说成是MPEG4的缩写，这在以前看来是一个谬论，但是经过商家不断的炒作，这个谬论也就成为了真理。现在若果你去电脑城听到MP4这个词，绝对是能播放视频格式的多媒体播放器的概念，而不是能播放音频MP4 AAC的随身听。出现这种怪现象不是毫无原因的，上面已提到AAC有版权保护功能，这也是众多唱片公司支持AAC的原因，要使自己的播放器支持AAC，还得支持付一定的版权费或专利费，另外，AAC的来源也是个问题，不像MP3那么开放，网上来源极少，所以目前音频MP4播放器发展尚不成熟，鉴于以上现状，众商家干脆“借尸还魂”，把MP4等同MPEG-4缩写而论，这样也恰好应了MP4是MP3的下一代这条规律，除了支持MP3所具有的音乐播放功能外，还具备强大的MPEG-4视频播放能力，另外，恰好“4”在“3”后，从这点出发，把MP4等同MPEG-4是合理的。

账号		自动登录	找回密码
密码			快速注册

[音频] 音频基础（二）压缩编码

浏览过的版块