Damian Kearns 阐述使用32位浮点音频的理由

zazz · 发表于昨天 22:56

在这篇文章中，Damian Kearns 阐述了使用 32 位浮点音频的理由。你可能会惊讶地发现，你可能已经正在使用它！
32 Bit NB.jpg

核心要点
32位浮点录音具有无限动态范围，且在音频信号经过模拟到数字转换后，不会因意外失真而受损。通过应用数学上的十进制和指数值，可实现令人惊叹的1528分贝动态范围。那么问题来了：既然浮点运算几乎消除了录音中的主要问题之一——峰值失真，为什么我们不都使用它呢？

浮点录音的优势包括：

无限头room，允许峰值音频信号比传统满量程高出数百dB，0dB满量程（即0dBFS）。我们正在讨论的是接近0dBFS以上770dB和以下758dB的范围。凭借这种能力，有人可以录制火山喷发的内部场景并带回可用的文件，前提是他们的设备不会熔化（这很可能发生）。

比16位或24位更长的字长，因此噪声地板比传统音频文件格式和传统录音介质（如蓝光光盘、CD、激光唱片、RDAT等）更低。

消除了对采用某种“32位浮点”编码方案的现场录音机中峰值限制器的需求（注意这里的引号。稍后会详细说明）。

使数字音频工作站（DAW）或其他软件中的信号处理变得“无痛”，因为削波问题不再存在。

32位浮点编码的成本或问题包括：

32位字长文件所需的存储空间远大于24位或16位文件。

以32位浮点格式录音意味着所有使用这些文件的制作人、编辑和混音师必须保持在32位浮点模式下，否则可能导致音频失真。

几乎不存在接受32位浮点音频的文件基于或物理交付要求。

虽然可以将音频打印得比0 dBFS更响亮，但在硬件输出D/A阶段（或音频接口硬件输出路径中的其他阶段）可能会发生削波，甚至在播放最响亮的内容时，将扬声器和耳机推入失真、削波或物理损坏的状态。

在这张图片中，我将音频提升了15.2 dB，如我所提到的，这是0 dBFS。注意音频看起来有多“压扁”。这是“之前”的图片。

在这张图片中，我将音频降低了16 dB。

“削波”现象完全消失。问题是：它真的存在吗？答案是“不”和“是”。

波形显示的上限为0 dBFS，因此任何超过该值的信号在波形中都会被赋值为0 dBFS。因此，32位浮点音频并未发生削波，因为它无法发生削波。波形看起来被削波是因为它无法容纳0 dBFS以上的十进制和整数值。那么，在32位浮点音频会话中，波形是否相关？

当然相关。它们预示着灾难。一些插件设计用于模拟模拟头room限制。压缩器可能会通过压碎这些峰值来彻底摧毁你的音频。而你的输入/输出硬件、扬声器和耳机也可能严重削波。我认为，在32位浮点音频会话中，波形确实是我们的朋友。需要注意的是，它们并未显示我们剪辑中的潜在失真；波形是在预测处理链中的问题。

浮点运算的意义何在？
大多数现代数字音频工作站（DAW）在其混音架构中采用某种浮点运算来缓解内部削波。例如，Pro Tools 配备了 64 位浮点内部混音器，这意味着用户在工作时可以将电平推高至 0 dBFS 以上，同时仍可确保最终音频混音文件的清洁度（前提是在打印前已在主推子上启用某种峰值限制）。因此，事实上，如果你使用的是过去10年内开发的任何DAW，你很可能已经在使用浮点运算，因为现代工作站都采用了这种混音策略。

对于使用iZotope的RX软件的用户来说，RX生态系统完全基于32位浮点运算。因此，无论是从DAW向RX发送音频并返回，还是通过桌面处理文件，你都一定能从其软件中获得32位浮点运算的优势。

在我看来，32位浮点音频最大的优势在于录音阶段——尤其是在现场录音时——因为此时存在诸多挑战，需要捕捉干净的信号，且只有一次机会实时录制正在发生的声音。

Mix Pre 6.jpg

几年前，我购买了一台Sound Devices MixPre-6 II用于录制采访，因为我还想利用其内部时间码发生器创建时间参考。我从未在32位浮点模式下录音，当意识到MixPre-6 II的峰值限制器在此分辨率下无法启用时，我感到有些不安。Sound Devices表示在此分辨率下无需使用限制器。事实上，他们在本文中对32位浮点文件的解析相当到位，这在一定程度上支持了录音时不应使用限制器的观点。

软件中的音频电平表
我用MixPre-6 II录制了第一次采访，并带回家。我将录制的全部音频导入32位浮点Pro Tools会话，并通过内置的日期时间码对齐（客户正是通过Sound Devices的Wingman应用程序使用该时间码做笔记）。在扫描录音时，我注意到采访主持人从未超过0 dBFS，但受访者意外笑了几次，峰值达到了+11！我只需将这些笑声部分调低，它们便与其他音频一样干净。在处理完几个峰值后，我以48 kHz、24位格式导出.wav文件，并确信所有内容均保持干净，因为此时所有信号均已低于0 dBFS。

对于大多数从事现场录音工作的人来说，这个Pro Tools音量调整阶段是一个额外的步骤，它可能会意外地清除一些嵌入的音频元数据。但由于我同时也是后期音频编辑和混音师，将所有内容导入DAW并管理峰值实际上为我节省了后续时间，而元数据在我工作流程中并不重要。在为他们导出固定整数文件甚至MP3文件后，我的客户可以在进行纸质编辑时使用非常干净的48 kHz、24位.wav文件。这太理想了！

经过几次成功的现场录音后，我决定将所需的录音室访谈也以32位浮点格式录制。我通过古老的24位HD OMNI接口直接将音频录入Pro Tools，而非使用MixPre-6 II，因为该设备提供的输出通道数量不足。为了增加录音头room，我将DAW的输入电平设置得比平时低6-8 dB，并使用AVID的Channel Strip插件对路由到音频轨道输入的辅助轨道进行增益提升，将电平恢复到6 dB。最终我得到了几个较大的峰值（+4、+5超过0 dBFS），但当我降低这些峰值时，它们与其他部分一样干净。这是因为混音器采用64位浮点运算，因此当音频信号通过24位固定整数硬件话筒前置放大器和A/D转换器进入Pro Tools软件后，我可以无拘束地调整增益，并使字长与现场录音一致，从而将整个项目保持在32位浮点格式。
Mix Pre-6 Software.jpg

我也一直以32位浮点格式录制音效，通常采样率为192 kHz或96 kHz，具体取决于声音的特性。在实地录音时，有一次我录制了一些汽车疾驰而过的声音和铁门 slammed 的声音，这些声音的峰值远超0 dBFS，但当衰减至满量程以下时，声音质量依然非常清晰。在这项工作中，我几乎没有时间进行设置，只能依赖我的枪式麦克风和领夹麦克风来完成任务。32位浮点格式在这些关键时刻提供了更大的容错空间。

32位录音中转换器是如何工作的？
虽然我不是硬件工程师，但我直觉认为32位浮点运算可能发生在模拟到数字转换阶段，即麦克风前置放大器与最终录音之间。在阅读了他们网站上的这篇文章后，我联系了Sound Devices，询问他们的硬件，特别是A/D转换过程；其中，模拟音频到达模拟麦克风前置放大器时，会被转换为数字信号。以下是他们的回复：

“我们专利了一种将多个固定点32位A/D转换器组合的方法，以提升MixPre II系列录音时所需的动态范围。（我们称其为多级转换器，因为我们并未依赖单一转换器。）”

非常巧妙。通过多个转换器解析输入模拟信号。从实际效果来看，最终生成的音频文件均为32位浮点格式。有趣的是，需要多个独立的A/D转换器来解析足够的信息以形成浮点数据集。无论如何，他们产品输出的音频都异常清晰。

挑战
这些32位文件比我在后期制作音频中使用的常规48 kHz、24位.wav文件大得多。24位与32位之间的差异会使文件大小增加33%，而当采样率从48 kHz提升至96 kHz时，数据量也会相应增加。

由于难以进行心算，我将其中一个单声道麦克风录音（时长15分35秒）转换为不同常见音频文件采样率和位深度，以便大家自行查看。

Bit Depth and Sample Rate Depth File Size Differences.png

Bit Depth and Sample Rate Depth File Size Differences.png

哇！CD质量的文件大小不到96 kHz 32位浮点文件的四分之一。即使是发送给广播公司和流媒体平台的典型48 kHz、24位文件，其大小也约为CD格式的60%。不难看出，96 kHz、32位浮点格式的物理存储容量会迅速耗尽。在最近的一个项目中，我们很快遇到了制作团队Google Drive存储容量不足的问题，而那时我已经将文件转换为48 kHz、24位格式！我最终将所有文件托管在自己的Dropbox中，并创建了MP3监听混音文件以缓解这些限制。我保留了原始的96 kHz、32位浮点数文件用于编辑和混音。

因此，文件大小是一个问题。

另一个问题是固有的工作流程。像Adobe Audition这样的程序在创建新会话时默认使用32位浮点格式。作为录音到编辑的工作流程，Audition与我的MixPre-6 II配合得相当顺畅。这是一款音频程序，而我作为音频工程师，知道如何处理听到的音频问题，因此我不一定需要系统默认使用32位浮点格式。但对于视频编辑来说，情况并不总是如此。

在24位或16位环境下工作的任何编辑人员，在将录音设备输出的浮点音频导入固定整数采样率时，都可能引入失真。正如我昨天一位朋友向我解释的那样，这种情况非常常见。我们音频从业者可以拥有所有音频现场笔记、邮件交流和电话沟通，但如果操作人员无法在工作流程中实现32位浮点数处理，仍会出现“问题”。

我可以举一个Pro Tools和RX之间发生这种情况的例子。我给编辑人员提供了对话素材，但他们返回的音频出现了削波，因为在Pro Tools中应用了过多的削波增益（将峰值推高至0 dBFS以上），随后音频被发送到32位浮点数RX进行降噪处理（此时峰值不再是问题），最后又发回24位固定整数Pro Tools会话。当音频从RX渲染到24位Pro Tools时间线时，剪切失真已经固化。涉事的编辑虽然清理了噪声，但添加了失真，导致所有工作无法使用。我经常听到类似情况，甚至在流媒体节目中也发生过。iZotope应该考虑在频谱图上方的“发送回”按钮旁边添加一个峰值限制器。Waves公司已通过其Clarity Vx Pro和Clarity De-Reverb Pro插件巧妙实现了这一功能。

由于我从未以32位浮点分辨率交付最终音频，因此必须采用某种方式将位深度降至24位或16位。从32位浮点转换到24位时，我总是使用峰值限制；虽然在时间和精力上不算大问题，但它绝对需要成为工作流程的一部分。这基本上排除了直接将32位浮点Pro Tools会话保存为24位副本的可能性，除非在32位浮点会话中首先渲染了峰值限制。

如何让32位浮点数为你所用
浮点数运算在捕捉音频和确保峰值可控而不产生失真方面非常出色。它也非常适合在软件内部处理音频。但它在输出到监听设备和放大器、导出为固定整数文件以及将录音传递给不使用32位浮点数的人时会带来风险。

既然使用起来如此棘手，那它的意义何在？

32位浮点音频是任何录音的最佳起点。它在清洁度和无失真方面是固定整数无法比拟的。在32位浮点模式下处理音频时，可以应用各种效果和增益而不会出现失真问题。

要让32位浮点音频发挥作用，请以这种惊人的分辨率录制声音，并在编辑和混音时对超过0 dBFS的部分应用增益减少或砖墙峰值限制器，你将获得巨大的、可听见的益处。如果你需要与他人交换24位或16位整数格式的音频会话或音频文件，请花几分钟时间找到那些峰值，并在转换为较低位深度之前确保它们得到控制。

结论
我发现自己在现场工作时使用32位浮点数分辨率，因为它能保护我免受突然的响亮声音的影响。现场录音并非我的职业重点领域，因此对于像我这样的初学者或业余录音师来说，这是开始收集优质录音并学习如何调整麦克风和耳机的增益结构的绝佳方式。

仅仅因为录音机可以录制32位浮点文件，并不意味着你可以修复因麦克风失真、不良线缆引起的失真、射频干扰或A/D转换前过多前置放大增益导致的削波问题。这些问题仍是我们在每次录音时必须面对的难题。32位浮点录音机只是缓解了一部分潜在的录音问题，并为DAW内部的增益级联提供了最大灵活性。

在录音室以及室内外录制音效和Foley时，32位浮点录音让我能够捕捉到那些否则可能需要多次尝试才能正确录制的内容，这意味着我不会错过任何机会或特殊时刻。

完成录音、编辑和峰值限制后，我喜欢将文件导出为24位以节省关键磁盘空间。对于我的音效，我并不介意将32位浮点录音转换为24位固定整数，因为这些录音已经过我编辑和清理，且我的音效驱动器已满，需要管理磁盘空间。

无论你是否意识到，随着时间的推移，这种运算将继续渗透到更多设备和软件中。这确实关乎录音的无限制可能性。

账号		自动登录	找回密码
密码			快速注册

[资讯] Damian Kearns 阐述使用32位浮点音频的理由

相关帖子

浏览过的版块