数字音频插件的智能化发展趋势

kelly_wz · 发表于 2020-12-24 13:00:10

数字音频插件的智能化发展趋势

在当今的数字音频时代，绝大部分的音乐、影视混录工程师、现场扩声调音师，都离不开多样化、强大且便利的各类数字音频插件。数字音频插件在一代代音频工程师的努力下，从开始单纯用算法去模仿模拟设备，如老派经典的均衡器、压缩器、机械式混响器等，到可以使用脉冲响应技术进行逼真模拟声学空间特征，以及对模拟电路建模仿真；再到如今音频处理的自动化、智能化。数字音频插件正以其强大优势得到越来越多的应用，映射出音频行业发展的轨迹。

所谓智能化，是指事物在网络、大数据、物联网和人工智能等技术的支持下，所具有的能满足人的各种需求的属性[1]。而在专业音乐创作、音频制作领域，各种插件的智能化属性正日益突显，自动分析音频信号并理解音频工程师的意图与预期进行繁琐复杂而又高效率处理的能力不断提升。各类智能化数字音频处理软件（可以在操作系统下独立运行并处理）或插件（必须在数字音频工作站中运行），如雨后春笋般地出现，并不断推陈出新。例如，在基于多层神经网络进行深度学习的人工智能作曲、歌声合成方面，已有较为成熟的Amper、AIVA、Jukedeck、Humtap、鲸鸣等独立软件平台，集作词、作曲、编曲、修音为一体；在基于大数据分析与机器学习的人工智能音频分析、处理方面，有ZynaptiqUnveil、iZotope、PhonicMind等插件，可实现去混响、分离人声及乐器等功能。

在本文中，笔者主要对近年来涌现的用于编辑、处理、控制的在数字音频工作站中运行的插件的性能和使用方法进行分析与讨论，为音频工作者提供较新的技术参考。

1 音频编辑与修复的智能化

1.1

校准对齐插件

相关信号间的相位关系的校准处理一直是音频工作者日常工作中不可忽视的问题，诸如现场扩声环境下扬声器系统的摆放，录音棚中对一件乐器采用多传声器的拾音，影视同期声录音使用多传声器拾音等。对此，传统的数字音频插件要进行信号间梳状滤波、相位干涉等问题的处理，如Waves的相位修正插件InPhase（见图1）、现场扩声处理插件Sub Align（见图2），它们均是通过波形显示的辅助手段，人为观察并仔细调整延时量，以达到相位校准的目的。

640.webp (1).jpg

图1 Waves的InPhase插件

640.webp (2).jpg

图2 Waves的Sub Align插件

在2010年、2018年相继问世的Sound Radix的Auto-Align、Auto-Align Post（传声器定位插件），采用了信号自动探测与自适应技术，无需观察波形，仅用手动拖拽方式，使得工作效率大大提高。如图3所示，当前的一个混音工程中有三轨素材，分别是底鼓内鼓皮、底鼓外鼓皮、底鼓超低，只需将该插件插入到这三轨，在其内部总线分别设置为SEND1、RECV1、RECV1，随后点击后两者的DETECT并播放，Auto-Align在短短几秒钟内就能计算并自动补偿采样点精度的相位差（图3中右上角所示，分别为40、20个采样点，也可以切换为毫秒、厘米、英尺的单位），达到理想的相位对齐。从中央的频谱相位表可以看到各频率的相位差基本为正，而从听感上也能明显感觉到梳状滤波效应的改善，低频显著提升。特别是Audio Suite的Post版本，还可以根据传声器移动、环境改变，分区块进行自动适配，使后期制作的声音修复和处理向智能化迈进。

640.webp (3).jpg

图3 Avid Pro Tools AAX AudioSuite的插件Auto-Align

除了相位校准之外，音频素材的时间对齐与同步也是缩混编辑环节中经常让人头痛的问题，有时多达几十轨的人声素材、乐器素材、影视同期声素材需要花费数个小时进行整理。在1995年，Synchro Arts作为业界知名的音频对齐技术研发者，推出第一代算法的VocAlign（见图4）。其用法很简单，选中要与之对齐的目标轨道作为GUIDE轨，再依次选择需要整理的素材轨道进行渲染处理，该插件便会根据波形形状进行对齐。不过其局限性也较为明显，处理素材的长度不能超过120 s，一次只能对齐一轨。直到2012年，基于第三代算法与机器学习的Revoice Pro独立软件问世（见图5），可以在合理范围内同时处理无限数量音频轨道，没有素材长度限制，并且根据信号的性质匹配最优算法。这种智能化的对齐方式，将几小时繁重枯燥的编辑工作简化为导入，点击对齐即可，区区数秒。

图4 音频对齐插件VocAlign

640.webp (4).jpg

图5 Revoice Pro独立软件

1.5

更聪明的补救插件

与录音棚录高质量音频素材不同，对于现场扩声、影视同期声的音频素材通常或多或少会存在如环境噪声、脏混响、可闻失真、风声、喷麦碰麦、哼声等各种问题，而解决这些问题的传统数字音频插件虽然不胜枚举，但大部分基于普通的均衡处理以及侧链压缩等技术，结果往往不够人性化与自然。

自2012年始，许多厂家开始陆续推出较为智能化的音频修复类插件，如Accusonus的ERA 4 Pro套装包含去混响、去喷麦、去嘶声等模块，Klevgrand的适应多系统（iOS、PC）的降噪插件Brusfri，Waves的自适应实时噪声抑制插件NS1，以及具有编码恢复、梳状滤波修复的插件Zynaptiq等。在2018年年底，iZotope推出了新一代的基于机器学习的音频修复软件RX7(见图6)，与上一代的RX6相比，RX7不仅开发了更多的功能，还将机器学习算法普及到了各个模块当中，将音频修复推上智能化处理的高度。

640.webp (5).jpg

图6 音频修复独立软件RX 7

RX7除了作为独立的音频处理软件外，还可以在任意的数字音频工作站中加载其单独模块的数字音频插件。如图7的Dialogue De-reverb与Dialogue Isolate（对白去混响与分离）功能不需要像传统的去混响插件需要加载用户提交的混响特征文件，而是通过机器学习算法分离出对白与混响的成分，用户只需要通过简单的调整Sensitivity(灵敏度越高，去除的混响成分越多，但是可能会降低对白的清晰度)、Reduction(衰减量越大，去除的混响信号越多)、Ambience preservation(环境特征比例，决定了环境相关的背景噪声的保留程度，该比例越高时，环境噪声越明显，但是有可能将不想要的混响信号也识别成环境噪声)就可以达到理想的效果。

640.webp (6).jpg

图7 RX7的对白去混响与分离功能

另外，RX7最新的Music Reblance（音乐重平衡）功能（见图8），是对已经缩混完毕的立体声格式音频进行重塑的手段。它摒弃了传统的利用左右声道反相消除人声或者低频乐器的原理，利用机器学习算法去直接分离出人声、贝司、打击乐组、其他乐器4个声部，不仅可以仅通过4个推子进行单一声部的衰减与提取，还可以重构声部间的平衡，这在以前是无法做到的。

640.webp (7).jpg

图8 RX7的音乐重平衡功能

在RX7中可有三种不同的算法供选择：

Channel Independent——在该模式下，RX7会忽略声道间的相关性，直接对每一个声道先处理再合并，速度最快的独立声道处理模式，适合实时预览；

Joint Channel——先对多声道文件进行预合并处理，通常相关性强的文件为佳，再确定整体的特征性参数，这种方式的音频质量会比（1）算法高很多；

Advanced Joint Channel——适合高采样率的音频格式文件以及不以440 Hz为标准音的音乐作品等，算法最复杂，处理质量最高。

2 频率与动态处理的智能化

纵观模拟域与数字域的音频信号处理单元，对设备更完善、更强大、更智能的追求就未曾停止过。20世纪90年代初期，各类模拟音频设备无论是可调参数还是处理能力都已经非常成熟，如BSS DPR 901的多段压缩开始出现；数字域的新秀TC M5000也拥有了MD2（Message-Digest）算法的母带多段压缩功能，这给许多数字音频工程师也带来了启发。之后，McDSP、HOFA等厂家几乎于同一时间发布了首批动态均衡器，使得音频信号处理从单一的“静态”化开始向“动态”化转变。到了2020年，多段压缩、动态均衡也已成为了传统的处理方式，频率与动态范畴间的关系与处理正变得更加紧密与智能化。

2.1

Sonible-smart系列

Sonible公司于2019年推出了三款基于智能化的自适应数字均衡器与压缩器插件：smart: EQ live（见图9）、smart:EQ 2（见图10），smart:comp（见图11）。

640.webp (8).jpg

图9 smart:eq live

640.webp (9).jpg

图10 smart:EQ 2

640.webp (10).jpg

图11 smart:comp

smart:EQ 2和smart: EQ live这两款均衡器处理插件，除了live版本有零延迟功能以及在UI（User Interface）设计、键位布局上更适合现场扩声的工作人员使用之外，没有区别。除了基本的均衡器功能外，重要的特点是如果开启了smart模式并播放，会进行几秒钟的分析运算，该软件便会根据当前音频素材的属性与声音变化进行实时分析，生成一个复杂的实时变化的均衡曲线，用户还可以自行调节该曲线的使用比例与范围，如在衰减共振峰的同时增加底鼓的冲击感、衰减人声的毛躁感与可能存在的近讲效应等，适合现场调音师进行快速的处理及提供个性化的单轨均衡参考意见。

smart:comp依托于智能化的处理技术，结合了时域分析压缩技术和频域分析压缩技术。开启smart模式后，该软件通过短时的信号分析之后，会自动生成一套包括阈值、压缩比、启动释放时间的压缩方案，并且会根据实时信号的变化及频谱性质，自动识别并随时调整启动压缩的频率范围，相当于一个有着2 000个频段的多段压缩器。如图11所示，当前在一个人声轨上使用了smart:comp压缩器，上半部分是经过机器学习得到的时域压缩方案，阈值为-33 dB，压缩比为2:1，启动时间为50 ms，释放时间为73 ms，增益衰减量大约是-6 dB，比较适合当前这个摇滚风格的音乐。而从下半部分的频域压缩可以看出，该压缩器主要对500 Hz～1 kHz的信号（即图中发亮部分）进行压缩，其他频段的信号的压缩量按比例进行衰减。

kelly_wz · 发表于 2020-12-24 13:53:21

2.2

Soundtheory-Gullfoss均衡器

Soundtheory团队经过14年的理论研究，于2018年发布了它们目前唯一的一款产品Gullfoss均衡器（见图12）。这个数字音频处理软件使用的是一种受量子理论和数学方法（例如非交换代数、微分几何和信息论）启发的信号处理替代方法、与以往采用的技术完全不同，没有使用神经网络、等响曲线、传统的DSP方法或机器学习算法，而是采用了纯粹的计算机听觉感知仿真技术。

640.webp (11).jpg

图12 Gullfoss均衡器

Gullfoss均衡器和传统的数字均衡器完全不同，无法自行处理任何频点，只能通过红色选框来选择需要处理的频段，其本质是根据音频信号进行实时优化。可调整的参数只有上方栏中的5个参数：Recover/Tame（控制所有参数的主导方向）、Bias/Brighten（根据音乐风格调整亮度和暗度）、Boost（根据听觉特性进行不同的频率增益），其他界面均为仪表和频谱变化图。通过调整上述5个参数，Gullfoss可以做到根据素材特性进行频率处理，如图12所示，在一个人声轨上使用Gullfoss，将处理频段设置为6 kHz～20 kHz，通过听感将TAME设置到了52%，Gullfoss会对该频段进行智能衰减，基本去除了不需要的嘶声成分，之后再通过Bias和Brighten补充一些高频，结果非常自然。除此之外，Gullfoss还可应用于母带均衡阶段，以及声音设计和5.1环绕声处理。

3 全局控制的智能化

音频后期制作本质上是基于精神的艺术创作行为，它融合了音频工作者的审美与经验，那么是否智能化的手段和设备可以从更高的层面代替人为的抉择与判断呢？

iZotope作为数字音频软件厂商中人工智能与机器学习技术的代表，一直以来都专注于如何将音频处理变得更加智能化。截止到2019年底，其软件产品线中有3款都拥有Assistant（智能助手）功能（不包括音频修复RX 7的独立程序助手）：Ozone 9（智能母带处理插件）、Neutron 3（智能混音处理插件）、Nectar 3（人声智能处理插件）。下面以一个实际的例子看看，一个混音工程是如何不需要音频工程师创造性思维的介入而完成的。

如图13所示，为一现场乐队录音分轨，由常规的鼓组、贝司、人声、电吉他、键盘构成。现在在人声轨道插入Nectar 3、其他所有轨道插入Neutron 3（如图14），为轨道选定乐器类型后（也可以让其自动识别），点击Assistant键并播放，Nectar 3和Neutron 3会实时对音频进行分析并自动为轨道做出相应的均衡、压缩、去嘶声、激励、频谱优化、混响等处理，直接完成所有的单轨混音音色处理的操作。

640.webp (12).jpg

图13 现场乐队录音分轨

640.webp (13).jpg

图14 Nectar 3和Neutron 3的实时音频处理

接下来，进行音量与声像处理。在所有轨道上插入Relay 2插件，这是Neutron 3插件的组成之一，目的是将所有轨的音频信号送入到插件的内部总线上，从而进行分析。随后，打开Neutron 3，点击Balance Assistant（平衡智能助手），这里将会展示出所有已经准备好分析的轨道，如图15所示。在这里需要选择重点关注的轨道，例如吉他独奏、人声独唱等，进一步增加分析的权重程度。最后，再点击开始监听，并将工程文件从头播放一遍，在此过程中，Neutron 3会基于音乐风格进行相应的全局音量调整与声像设置。结果可以通过VISUAL MIXER（可视化虚拟混音插件）来查看最终的结果并进行进一步微调，如图16所示。

640.webp (14).jpg

图15 Relay 2插件的音量与声像处理

640.webp (15).jpg

图16 VISUAL MIXER插件的混音微调

最后，在总线上加载Ozone 9，点击Master Assistant（母带智能助手）并播放，该软件将对混音作品进行整体分析，从声场、频率、动态等方面做全自动化母带处理。值得一提的是，Ozone 9还提供了Intelligent Release Control(IRC)母带算法。其中，最复杂的IRC IV，在已有的智能释放控制算法上，加入了频谱整形功能以减少失真和抽吸效应，并且对于高于阈值的信号，IRC IV算法会根据不同的频率内容来限制峰值，并从心理声学的角度减少不同频率成分之间的掩蔽。IRC IV还提供了三种不同的处理风格供选择：Classic（Ozone的传统算法，有一定的谐波色）；Modern（较前者有更好的清晰度）；Transient（一种对瞬态进行保留的优化算法，清晰度最佳）。除此之外，Ozone 9还有编码预览功能，可以直接对最后的成品进行客观的分析，如图17所示。

640.webp (16).jpg

图17 Ozone 9的编码预览功能

在上述过程中，音频工程师利用一系列的智能化数字音频软件，只需要几次简单的点按操作，无需主观创造性的处理介入，并且处理结果可以接受。近几年，除了数字音频软件之外，也涌现了许多被称为“黑匣子”的在线混音、母带处理网站，上传提交，返还结果，如AIMixing、AI Mastering、LANDR等，更为简单直接。

4 结束语

从上述音频处理软件的发展变化看，数字音频软件的智能化、网络化的趋势愈加显现。作为音频行业的从业人员，应该开拓新思维，掌握新理念，勇于尝试新技术。同时，也不要过度依赖智能化的设备、软件等工具，无论以后数字技术的智能化发展到哪种程度，它们提供的始终是参考价值，对声音的决定权一定是掌握在自己手中。

账号		自动登录	找回密码
密码			快速注册

[电子] 数字音频插件的智能化发展趋势

相关帖子

浏览过的版块