音频处理基础教程

audio750 · 发表于 2005-9-17 00:19:00

音频处理基础教程

首先，对声音和音频采集及保存的文件格式进行一个概述。
一、什么是声音？
声音只是压力波通过空气的运动。压力波振动内耳的小骨头，这些振动被转化为微小的电子脑波，它就是我们觉察到的声音。内耳采用的原理与麦克风捕获声波或扬声器的发音一样，它是移动的机械部分与气压波之间的关系。自然，在声波音调低、移动缓慢并足够大时，我们实际上可以“感觉”到气压波振动身体。因此我们用混合的身体部分觉察到声音。
声音没有质量，也没有重量。声音不是物体，只是一个名称，声音是一种机械纵波, 波是能量的传递形式，它有能量,所以能产生效果,但是它不同于光(电磁波),光有质量有能量有动量,声音在物理上只有压力，没有质量.
1、声音特性
(1) 响度：人主观上感觉声音的大小，由“振幅”决定，振幅越大响度越大。（单位：分贝dB）
(2) 音调：声音的高低，由“频率”决定，频率越高音调越高（频率单位Hz，赫兹[/url，人耳听觉范围20～20000Hz）
例如，低音端的声音或更高的声音，如细弦声。频率是每秒经过一给一定点的声波数量，它的测量单位为赫兹，是以一个名叫海里奇R.赫兹的音响奇人命名的。1千赫或1000赫表示每秒经过一给定点的声波有1000个周期，1兆赫就是每秒钟有1,000,000个周期，等等。
(3) 音色：声音的特性，由发生物体本身材料、结构决定。
为了录取声音，必然涉及如何采集声音为音频的问题。以前通过用模拟信号把原始信号以物理方式录制到磁带上，然后加工，剪接，修改，最后录制到磁带，LP等广大听众可以欣赏的载体上。这种信号可以保留原始声音的细腻的音色，这也是许多传统的古典发烧友仍钟情于原声大碟的原因之一。但由于其录制过程中信号损失太多，相对于数码录音的高音质逊色，更不能实现Hi-Fi，再加上其他原因这种音频的载体越来越不被看中。
如果我们注意一下身边的CD片就会看到很多CD都有如：ADD，AAD，DDD等标记。三个字母各代表该片在录音，编辑，成品三个过程中所使用的方法是模拟(Analog)的还是数字(Digital)的。当然A代表模拟，D代表数字。AAD就说明其录音和编辑是用模拟方式的，而最后灌片是用数字方式的，这类唱片多是将过去录制的音乐转成CD片而不做任何修改。ADD则是有一个修改过程，许多古典音乐大师的演奏或指挥多录制于模拟时代，我们现在听到的CD 是经过修改后罐录的，很多这类唱片都有标记ADD。而DDD的唱片必然是较现代的录音品。自然，CD片必然以D结尾，而磁带可以姑且认为是AAA，虽然好像并没有这种说法。
2、数码录音
数码录音最关键一步就是要把模拟信号转换为数码信号。就电脑而言是把模拟声音信号录制成为Wave文件，录制出来的文件就是Wave文件，描述Wave文件主要有两个指标，一个是采样精度，另一个是比特率。
什么是采样精度？因为Wave是数码信号，它是用一堆数字来描述原来的模拟信号，所以它要对原来的模拟信号进行分析，我们知道所有的声音都有其波形，数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”，赋予每一个点以一个数值，这就是“采样”，然后把所有的“点”连起来就可以描述模拟信号了，很明显，在一定时间内取的点越多，描述出来的波形就越精确，这个尺度我们就称为“采样精度”。我们最常用的采样精度是44.1kHz/s。它的意思是每秒取样44100次，之所以使用这个数值是因为经过了反复实验，人们发现这个采样精度最合适，低于这个值就会有较明显的损失，而高于这个值人的耳朵已经很难分辨，而且增大了数字音频所占用的空间。
什么是比特率？我们知道声音有轻有响，影响轻响的物理要素是振幅，作为数码录音，必须也要能精确表示乐曲的轻响，所以一定要对波形的振幅有一个精确的描述，“比特”就是这样一个单位，16比特就是指把波形的振幅划为2的16次方，即65536个等级，根据模拟信号的轻响把它划分到某个等级中去，就可以用数字来表示了。和采样精度一样，比特率越高，越能细致地反映乐曲的轻响变化。
二、音频格式
以下是常见音频文件格式的特点。
要在计算机内播放或是处理音频文件，也就是要对声音文件进行数、模转换，这个过程同样由采样和量化构成，人耳所能听到的声音，最低的频率是从 20Hz起一直到最高频率20KHZ，20KHz以上人耳是听不到的，因此音频的最大带宽是20KHZ，故而采样速率需要介于40~50KHZ之间，而且对每个样本需要更多的量化比特数。音频数字化的标准是每个样本16位-96dB的信噪比，采用线性脉冲编码调制PCM，每一量化步长都具有相等的长度。在音频文件的制作中，正是采用这一标准。
CD格式：天簌
当今世界上音质最好的音频格式。在大多数播放软件的“打开文件类型”中，都可以看到＊.cda格式，这是CD音轨了。标准CD格式也就是44.1K的采样频率，速率88K/秒，16位量化位数，因为CD音轨可以说是近似无损的，因此它的声音基本上是忠于原声的，因此如果你如果是一个音响发烧友的话，CD是你的首选。CD光盘可以在CD唱机中播放，也能用电脑里的各种播放软件来重放。一个CD音频文件是一个＊.cda文件，这只是一个索引信息，并不是真正的包含声音信息，所以不论CD音乐的长短，在电脑上看到的“＊.cda文件”都是44字节长。注意：不能直接的复制CD格式的＊.cda文件到硬盘上播放，需要使用象EAC这样的抓音轨软件把CD格式的文件转换成WAV，这个转换过程如果光盘驱动器质量过关而且EAC的参数设置得当的话，可以说是基本上无损抓音频。
WAV：无损
是微软公司开发的一种声音文件格式，它符合 PIFFResource Interchange File Format 文件规范，用于保存WINDOWS平台的音频信息资源，被WINDOWS平台及其应用程序所支持。“*.WAV”格式支持MSADPCM、CCITT A LAW等多种压缩算法，支持多种音频位数、采样频率和声道，标准格式的WAV文件和CD格式一样，也是44.1K的采样频率，速率88K/秒，16位量化位数，看到了吧，WAV格式的声音文件质量和CD相差无几，也是目前PC机上广为流行的声音文件格式，几乎所有的音频编辑软件都“认识”WAV格式。
这里顺便提一下由苹果公司开发的AIFF（Audio Interchange File Format）格式和为UNIX系统开发的AU格式，它们都和和WAV非常相像，在大多数的音频编辑软件中也都支持它们这几种常见的音乐格式。
MP3：流行
MP3格式诞生于八十年代的德国，所谓的MP3也就是指的是MPEG标准中的音频部分，也就是MPEG音频层。根据压缩质量和编码处理的不同分为3 层，分别对应“*.mp1"/“*.mp2”/“*.mp3”这3种声音文件。需要提醒大家注意的地方是：MPEG音频文件的压缩是一种有损压缩， MPEG3音频编码具有10：1~12：1的高压缩率，同时基本保持低音频部分不失真，但是牺牲了声音文件中12KHz到16KHz高音频这部分的质量来换取文件的尺寸，相同长度的音乐文件，用＊.mp3格式来储存，一般只有＊.wav文件的1/10，而音质要次于CD格式或WAV格式的声音文件。由于其文件尺寸小，音质好；所以在它问世之初还没有什么别的音频格式可以与之匹敌，因而为＊.mp3格式的发展提供了良好的条件。直到现在，这种格式还是风靡一时，作为主流音频格式的地位难以被撼动。但是树大招风，MP3音乐的版权问题也一直是找不到办法解决，因为MP3没有版权保护技术，说白了也就是谁都可以用。
MP3格式压缩音乐的采样频率有很多种，可以用64Kbps或更低的采样频率节省空间，也可以用320Kbps的标准达到极高的音质。我们用装有 Fraunhofer IIS Mpeg Lyaer3的 MP3编码器（现在效果最好的编码器）MusicMatch Jukebox 6.0在128Kbps的频率下编码一首3分钟的歌曲，得到2.82MB的MP3文件。采用缺省的CBR（固定采样频率）技术可以以固定的频率采样一首歌曲，而VBR（可变采样频率）则可以在音乐“忙”的时候加大采样的频率获取更高的音质，不过产生的MP3文件可能在某些播放器上无法播放。我们把VBR的级别设定成为与前面的CBR文件的音质基本一样，生成的VBR MP3文件为2.9MB。
MIDI：作曲家最爱
经常玩音乐的人应该常听到MIDI（Musical Instrument Digital Interface）这个词，MIDI允许数字合成器和其他设备交换数据。MID文件格式由MIDI继承而来。MID文件并不是一段录制好的声音，而是记录声音的信息，然后在告诉声卡如何再现音乐的一组指令。这样一个MIDI文件每存1分钟的音乐只用大约5～10KB。今天，MID文件主要用于原始乐器作品，流行歌曲的业余表演，游戏音轨以及电子贺卡等。＊.mid文件重放的效果完全依赖声卡的档次。＊.mid格式的最大用处是在电脑作曲领域。＊.mid 文件可以用作曲软件写出，也可以通过声卡的MIDI口把外接音序器演奏的乐曲输入电脑里，制成＊.mid文件。
OGG：新生代音频格式
ogg格式完全开源，完全免费，和mp3不相上下的新格式。

三、录音技术-人头录音
其目的是用耳机时把虚拟的声音变的更加真实。过耳机的朋友大多知道，耳机重播音乐的效果和喇叭有很大的不同，特别是在“音场”方面。耳机虽然也能营造出音场的效果，但远不如喇叭自然。“耳机的最重大缺陷就是音场不自然”已经成为发烧友的共识。这是什么造成的呢？主要有两个因素。首先，用喇叭重播音乐时，声音信号从喇叭发出，通过空气传播，到达人耳。这时，人耳听到的“喇叭声音”和听到自然界中各种声音一样，经过耳廓、外耳、耳道，传导到耳鼓膜，被大脑神经所感知。在这个过程中，人的耳廓、耳道、人的头盖骨、肩部等对声波的折射、绕射和衍射，都会对声音造成一定影响。在声学上，用HRTF，即“头部相关传输函数”来描述这种影响。正是由于HRTF的影响，人的大脑能根据经验判断出声音发出的方位和距离。人即使蒙上眼睛也能判断声音发出的方向和距离，这就是K大脑根据HRTF影响的经验做出的判断。通过耳机欣赏音乐时，声音是被耳机的驱动单元直接“灌”进双耳的，也就是说，人的耳廓、头盖骨和肩部等对声音造成的影响没有了，HRTF不存在了。在这种情况下，人的大脑就无法准确判断声音的方位和距离。很多人觉得，用耳机欣赏音乐时，音场的感觉不自然，乐器的定位似乎是虚的，其主要原因就在于此。另一个原因是，制作立体声录音时，一般左右声道的话筒彼此相距几米、甚至十几米。相距如此远得到的立体声信号被两只相距只有30厘米的耳机单元灌进双耳，通常得到的效果就是：音场的大部分似乎挤压在左右耳之间的脑海中，俗称“头中效应”（In-Head Effect）。
然而，有一种“仿真人头”（Dummy Head）的双声道录音方式完美地解决了耳机的这一弊端。用仿真人头方式录制的唱片当用耳机欣赏时，能营造出比喇叭更为逼真的360度音场效果，是迄今为止在音场再现方面最完美的一种高保真录放方式。要想用喇叭营造出可与之媲美的音场效果是不可能的，除非用无数只喇叭将听者围起来，录音时用上无数声道！然而，仿真人头录制的CD只有用耳机欣赏才能体会到其妙处，用喇叭欣赏并不能发挥其音场上的优势。为什么呢？这就要谈到仿真人头录音技术的原理了。
简单地说，仿真人头录音方式就是把两个微型全方向性话筒安置在一个与真人头几乎一模一样的假人头的耳道内（接近人耳鼓膜的位置），模拟人耳听到声音的整个过程。这个假人头有耳廓、耳道、头盖骨、头发和肩膀，甚至皮肤和骨头也是采用和人体最为接近的材料制造的。这一切都为了一个目的：尽可能真实地模拟人耳在听到声音时所受到的一切HRTF的影响。
这样两个话筒录制到的信号应该说就相当于一个在假人头所在位置的真人的双耳所听到的声音。这个双声道的信号不能加任何后期处理（否则就会破坏“模拟真人头”的真实性），直接灌录到唱片上。只要用耳机欣赏这张唱片，就能几乎完美地将录音场所的音场（360度）还原出来，好像听者就处在录音场所中似的，因为所有的HRTF都保存在了唱片上，被耳机重放出来。显然，用喇叭放这张唱片也会有不错的立体声效果，但绝不能跟耳机相比。因为在喇叭播放的过程中，听者又受到了一次 HRTF的影响，干扰了唱片中原有的原始HRTF信息。
用双声道录音就可以完美地还原出360度的音场效果！这本应是一件天大的好事。可是，仿真人头录音只适合耳机重放，这大大限制了它的使用，所以市面上采用仿真人头技术录制的CD极少，很难寻觅。在著名的仿真人头技术网站上，有一百多种CD可选择。即使是最高级的Hi-Fi系统，仍比不上现场的感觉。原来，关键就在于音场！360度的音场感觉和平时听到的小于180度的音场感觉，差异真的很大。仿真人头技术是唯一能百分之百还原360度环绕音场的技术，比任何“多声道环绕声技术”都远远优胜。
假如你拥有一副Hi-Fi耳机，不管档次是高是低，都应该去买一张仿真人头技术制作的CD来听听。它带给你的是绝对的震撼，是世界上最高级的“环绕声系统”也无法比拟的360度的绝对临场感！

yuehai · 发表于 2005-9-24 23:18:00

写的不错,支持!

独醉一生 · 发表于 2005-10-22 02:33:00

向你学习!!!

xiaoweng · 发表于 2008-7-24 16:58:04

不错!!!!!!!!!加油

账号		自动登录	找回密码
密码			快速注册

[音频] 音频处理基础教程

相关帖子

浏览过的版块