耳机收听时代到来，传统立体声录音方式应该如何变革？

qingyin · 发表于 2008-2-16 08:47:27

耳机作为移动端配套的便携设备已逐渐成为人们收听音乐的主要方式。一般想提升收听享受，我们会从高保真文件、播放器、前级、耳机这些环节着手。但是很少人意识到，我们听到的大部分音乐，尤其是10年、20年以前的经典歌曲，在录音制作时是针对立体声音响收听设备而调节的。这意味着当我们用耳机去收听时，得到的效果不一定是录音师想让我们听见的，自然也达不到最佳的听感享受。

伺候耳朵数十年，曾主导《让世界充满爱》、《血染的风采》等著名节目录音工作的赵平老师深入认识到耳机与音响收听方式的巨大差异，他认为现今沿用的录音方法已经不适应新的收听方式，而不适当地使用耳机收听音乐更会危及听众的听力健康。于是，他创办全向录音工作室，历经5年多，通过一系列实验总结出一套新的、不同于传统的录音解决方案，其命名为“全向录音技术”，已申得专利保护。

音乐人攻略曾经介绍过一系列关于立体声录音的攻略，我们知道单单是麦克风的摆向就足以让录音师焦头烂额。在我们介绍全向录音技术之前，先让大家看一段全向录音工作室所做的录音试验，试验是在一个早晨春雨中的街道，现场操作人员只有一个人。选择雨天的街道是因为，雨滴落在雨伞上的声音的近场效果与街道的远场效果对比能够更加夸张的反映全向拾音的距离感、车轮压过雨水路面远去的声音能够反映车辆移动定位的准确性。

雨中马路边试验

视频经上传，音质有所损失

原版无压视频请见文末获取下载方式

是否如同置身其中？更意想不到的是，录音设备仅仅是一副低端耳机、几十块网购来的两支心形小振膜麦克风与一台便携式录音机。

那么耳机与音响收听差别到底在哪里，录音方式又应该如何改变？接下来赵老师为我们介绍全向录音技术理念：

一、重塑立体声场

录音师使用扬声器监听常规录音的时候，前期一般只拾取单声道的声音素材，只有在录大编制的乐队才考虑使用立体声或立体声对传声器。在后期缩混时，利用扬声器的声音通过空气传导到达录音师耳朵的过程，根据音乐风格的需要重塑一个声场，再把各个声部安排在声场的不同位置。这是传统监听扬声器作为混音监听的工作理念。

耳机收听模式没有空气传递的过程，无法还原用上述方法所重塑的声场。举个常见的例子：假如流行音乐中有 4 个 Tom Drum，录音师一定会利用 PANPOT改变左右声道的强度差来进行如下的声像分配：Tom1 = 全左、Tom2 = 左中、Tom3 = 右中、Tom4 = 全右。这样的分配在使用立体声扬声器回放时当然没有问题。而用耳机收听时，空气传导的过程没有了，左耳只能听到 Tom1、Tom2、Tom3三只鼓；右耳只能听到 Tom2、Tom3、Tom4 三只鼓。左耳听不到 Tom4，右耳听不到 Tom1。

耳机收听模式没有了音箱收听模式的空气传导过程，这就需要我们在没有空气传导过程的信号传输中重塑一个耳机声场。此时调音台上的 PANPOT 仅靠声音强度进行定位的方法已经完全不能满足为耳朵重塑声场的需求了。全向录音技术的声像定位是依据全向拾音装置拾取的具有完整声场信息的分声部素材，利用时间差完成声像定位和声场分布的。这样的方式最大限度的保留了前期拾音场地的声场信息，并在这个基础上重塑耳机声场。这样的方法使声像定位更准确、沉浸感更强烈、声场更自然、场景更和谐。

如何用时间差完成声像定位和声场分布？

耳机收听环境下的哈斯效应：当两个强度相等而其中一个经过延迟的声音同时到达聆听者耳中时，如果延迟在 30ms 以内，听觉上将感到声音好像只来自未延迟的声源，并不感到延迟声源的存在。当延迟时间超过 30ms 而未达到 50ms 时，则听觉上可以识别出延迟声源的存在，但仍感到声音来自未延迟的声源。只有当延迟时间超过 50ms 以后，听觉上才感到延迟声成为一个清晰的回声。这种现象称为哈斯效应，有时也称为优先效应。（节选自著名技术网站对哈斯效应的描述）

著名的哈斯效应是立体声诞生、发展过程中的基础理论，它的影响力和历史贡献有目共睹。全向录音工作室就哈斯效应在耳机收听模式下和扬声器模式近场监听条件下进行了比较，结果出乎预料：在耳机收听的环境下1ms 已经开始偏移了，15ms 就能够听到明显的双声，而绝不是哈斯效应阐述的 50ms 才听到双声。哈斯效应关于同频同相两个信号延时量的阐述仅仅适合扬声器收听的模式，而且缺少了两个先决条件：

, n& {& \' ~* N! r
7 ]( P4 m. U: J K7 o
扬声器的间距以及扬声器与收听者的距离。设想一下，两只扬声器和听者之间的距离为 10 米、3 米、0 米，这个测量的结果能够一致吗？同理用在耳机收听模式上，就好比您拿一把尺子在 3 米以外测量 1 毫米精度的物体长度；
5 u/ f$ X2 X9 T" Y6 F$ P

3 f& }9 }. U6 `7 ?& f7 B% |% R8 _# n2 `& e: p7 W7 L5 B# l& ]7 _. V

1 `) t; |9 J5 N v& [ y' N
0 k9 R+ L+ @" W+ ]' }
0 ~) `8 w3 ~5 C6 n

测试声场的条件。仅从主观听觉数据来讲，在消声室和音乐厅的感受就会截然不同。

: ~- @( r: T G' E
/ L# r7 l* M: f* U* ]5 v5 r
) J* w: ]$ N- S0 P0 r
! b; _3 J9 F3 N6 B+ r9 s4 h" e$ k# s0 a) \' D" M( G7 D

在模拟录音年代，录音师没有条件验证延时在左右扬声器之间的关系。如今数字调音台的通路可具备延时的功能，就给录音师开启了一扇全新的大门。

以下是全向录音工作室的试验：《节拍器延时 0-40 毫秒延时试验》，分别在您的扬声器系统和耳机系统中感受一下，用 6 分钟时间证明一个能够让您受益整个职业生涯的结论。

广播电视飞速发展的今天，高清节目已经普及，而电视节目的音频仍然以单声道为主。当然我们也不可否认，从技术流程上，的确是从设备到网络到播出都可以实现立体声还音了，但是节目制作时还是以单声道为主。立体声和单声道的兼容性也是衡量节目质量的重要标准。全向录音技术独特的重塑声场的方法可得到完美的兼容性，因为我们的时间差定位和重塑声场的方法可以使左右声道中的声音信息几乎是完全一样的。当你需要单声道时，直接关掉左右的任何一路就好了。

二、拾音制式

1. 常用拾音制式回顾

说到立体声拾音，大家首先想到的一定是已经沿用了超过半个世纪的各种立体声拾音制式。我们不妨将现有的主要立体声拾音制式做一个分析。常用的立体声拾音制式可分为 3 类：

a. 同轴立体声拾音制式

常用的同轴立体声拾音制式有 XY 制（图 1）和 MS 制（图 2）两种，立体声广播最适用这两种制式。MS 制的还原过程相对复杂，它需要一个和差变压器或者一个和差电路。这种同轴拾音制式是没有时间差的立体声拾音制式，利用强度差来实现立体声效果。

XY 制

MS 制

b. 非同轴立体声拾音制式

常用的非同轴的立体声拾音制式有 AB 制（图）和 ORTF 制（图）两种，声音信号拾取时既有强度差也有时间差和相位差。业内普遍认为，非同轴立体声制式的拾音效果会好于同轴的立体声拾音制式。

AB 制

ORTF制

人工头拾音制式

人工头的拾音制式充分地利用了所有立体声形成的原理，在具备强度差、时间差、相位差的同时，更多地加入了音色差的因素。

2. 常用立体声拾音制式的缺陷

每一位录音师都知道传声器（后文统一简称“话筒”）有一个非常重要的技术指标：指向性。录音师利用这个重要的技术指标选择适合被拾音声源及现场环境的话筒，并有效地规避一些不需要的声音。当我们对一个独立声源进行拾音的时候， XY、MS、ORTF 立体声话筒的指向变得复杂，甚至没有一个厂家能够给出这指向条件下的频响指标，拾取到的素材自然会产生偏差。

在长久以来的录音实践中，录音师经常采用主话筒和分声部话筒共同拾音的方式，后期再以主话筒为主、分声部话筒为辅进行混录。而混录时很多人在层次的分配上经常会出现喧宾夺主的情况——大量地使用分声部话筒所拾取的素材，而主话筒拾取的素材却仅仅作为参考或退居二线。造成如此配比的原因在于：主话筒拾取的声音不够漂亮。

业界认为，人工头的立体声拾音方式最适合耳机收听。全向录音工作室经过对比试验认为：实际上人工头拾音的方法比较适合入耳式的耳机收听，但是也存在问题：人工头结构是在假设的耳道中，拟定了一个耳膜的位置并在此处进行拾音。首先，指向性带来的频响问题仍然不可回避；再者，每个人的耳道、耳膜都不完全一致，耳廓和头型也千差万别。每只耳朵只有一个耳道，声音先经过人工头的耳道被拾取，然后再进入到每个收听者的耳道中，这显然不能真实的反映现实的声场信息。

3. 全向录音技术拾音制式

耳机收听模式重塑声场的过程决定了拾音内容不再需要单声道的素材，而要采用立体声的全向拾音装置拾取完整声场的某个声部。

真人头的方式显然不能在音乐录音中使用。经过总结前辈专家们的成果研究发现，17cm 似乎是一个业界公认的双耳间距的标准。ORTF、人工头、球面拾音都是 17cm 间距。但是我们尝试着制作了第一个全向拾音装置：一个直径 20cm、内部充满液体的球体，将两支心形话筒呈 180度平行放置在球体的左右。首次使用是在中国音乐学院国音堂的录音棚，录音的内容是江南丝竹，10 人的小民乐队编制。尽管这次球体支撑装置的试验成功了，但最终的录音效果并不令人满意。

17cm 的话筒间距虽然能够反映现实，但并不够夸张。全向拾音装置采用了以球形作为遮挡物的话筒排列方式，这种装置形成立体声的要素：时间差、音色差、音量差。假如球体的直径增加，这 3 个要素的差值一定有所提高。

于是我们大胆地 DIY 了一个直径为 25cm、充满液体的球形体，两支心形话筒依然呈 180 度平行放置在球体的左右，话筒的正指向朝向正前方，此时两支话筒的中心间距增加至 27cm。

试验录音在北京中山公园音乐厅进行。录音内容：中国歌剧舞剧院交响乐团的交响音乐会；乐队规模：双管编制。这场音乐会我们仅用了一套全向拾音装置的两支话筒，最终呈现出的音响效果令人振奋。

试听请见文末下载方式

三、变物理动态为心理动态

混合录音是一个不断考虑取舍的过程。从某种意义上说，调音台不是传说中的高保真，而是专门制造失真的机器。这种说法一定会招致很多质疑。但事实上，加入均衡器后频响已经产生了失真，加入了压缩后又让动态产生了失真，再加入了混响便让声场也产生了失真。

我从事了 40 余年的录音工作，使用的所有技术手段都是为了最终收听效果，完美的失真是非常必要的。

我们知道长时间使用耳机会导致听力水平下降，减轻听力损伤的办法首先是减少动态，但音量压缩用的不得当，会产生很多问题。例如：频响变差，声音失去光泽等等。如何大幅度引入音量压缩而又不被察觉，用善意的动态失真保护我们的听力水平才是我们应该认真研究的课题。

解决办法：

我们采用 Orban 公司的 5 段动态处理单元。将这个动态处理单元配置在主输出单元，调整参数此处省略。举例：当低频信号被压缩时，中、高频的信号没有压缩或者小幅度压缩，耳朵没有察觉到。经过五段处理后的信号需要进行混合，这台动态处理单元的优越之处是可以人为的干预。" r' X; Y' Q( i( b- V+ r! F5 q/ D8 W

利用 5 段的混合功能可以轻而易举地调校出节目的风格、录音师的风格甚至频道的风格。比如：重低音、富有弹性、更加明亮。具体工作流程此处略去。通过这个动态处理单元，常规的压缩量在-10dB左右，而瞬间的峰值压缩量将达到-22 至-24dB。我们用能量的概念解释一下：压缩 20dB，相当于 90%的能量被忽略，而实际听感上却不易察觉。

四、低码率监听

在现行节目交换中，唱片公司、录音工作室负责提供无压缩录音的 WAV 格式的节目给音乐网站，由音乐网站进行压缩编码后推送给听众。而我们工作的目标是要把录音棚的音效送到每一位听众耳中，全向录音工作室强烈建议业界同行在制作 WAV 格式母版的同时也能制作一版符合音乐网站推送标准的压缩编码母版。那么制作压缩编码母版当然要在压缩编码后的监听环境下制作了，这就是搭建低码率监听环境的原因。

压缩编码预补偿示意图

如图所示，我们在全向录音制作系统的监听环节上增加了一个切换开关，用来切换调音台主输出单元的信号与经过压缩编码→流媒体播出→internet 传输→用户接收→软解码后节目重放的信号。整个信号的流程完整的模拟了从录音棚交母带后经由音乐网站到达最终听众的全信号流程。重放的节目信号就是终端用户的信号，在这个流程中会有压缩编码损失，会有传输损失，会有解码重放的损失。我们将主输出单元送出的信号和低码率监听环境的信号进行比较，是可以感受到信号损失的情况的。根据低码率监听环境的声音效果，对输入单元的信号进行预补偿。

举例，如主输出单元的输出＝10，经过低码率监听环境变成了 8；我们就在输入单元增补，让主输出单元输出＝13，再经过低码率监听环境可能就是您需要的 10 了。

那么为什么是在输入单元进行预补偿而不是主输出单元呢？首先，经过压缩编码的损失不是一个固定的常数，它会根据音乐本身产生变化。再者，有一点要明确的就是，不是所有的声部都需要进行预补偿。最常见的是泛音损失，在多轨分声部的素材中，有些声部可能不需要泛音或者泛音很少，例如木管组，那我们就要避开它去对其他声部进行预补偿。另外，空间信息的损失也比较常见。

这样录音师手里将有 2 个母版；WAV 格式的没有压缩编码的母版和经过了预补偿的MP3或者AAC格式经过压缩编码母版。后者用于音乐网站以保证接近录音室母版的最终收听效果。

5年的研究历程积累了一些录音成果，都是经过预补偿的AAC编码格式，内容有合唱、交响乐、歌剧，我们希望大家分享和关注。因为全向录音工作室并不是版权方；再则，只要在线播放，节目一定会变成MP3的格式，这样无法感受到全向录音制作的压缩编码的效果。如果您有需要，请直接联系全向录音工作室，我们将提供下载链接的信息。

Phase · 发表于 2008-2-16 18:37:31

祝贺踏浪老师！:victory:

audio456 · 发表于 2008-2-17 09:43:10

:victory: :victory: 羡慕!

帐号		自动登录	找回密码
密码			快速注册

[耳机] 耳机收听时代到来，传统立体声录音方式应该如何变革？