如何让声音罐头更美味？——浅谈音频压缩和编码（上）

2575990 · 发表于 2022-1-5

当你疲惫地躺卧在沙发上，刷着短视频以寻觅点新刺激的时候，广告总是不合时宜的蹦出来，高亢的陈词滥调通过蓝牙耳机不断刺激着你可怜的耳朵。“真受够了！”一气之下你摘掉了耳机，打开了SACD机，放进去一张DSD重制的肖邦练习曲，随着波利尼温和的触键，你满意地自语：“这才是自然的声音嘛。”

咦？自然的声音？仔细想想，那张CD的承载的音乐信号，从录制到播放经过的处理步骤，似乎并不比短视频里音频信号经过的少；著名指挥指挥切利比达奇也曾说过：“录音好比失去了原味的青豆罐头。”可为什么“罐头”式音乐录音比同是“罐头”的短视频配音更加活色生香、“接近原味”呢？这就不得不从音频编码和压缩说起了。

640.webp (91).jpg

常见的数字音频编码格式

事实上，音频编解码不仅在音频文件录制保存上起着重要作用，还在广播电视的信号传输中担当着关键角色。完整的信号调制方法如下图所示[1]，该分类按照模拟调制、数字调制、模拟信息、数字信息将音频调制分为了多个类别，在其中可以看到一些基于模拟信号载体或者基于模拟数据存储的格式，这些格式和广播电视信号的传输有着密切的关系，在这里我们不对这些含有模拟部分的格式展开。对于数字音频编码，大类上主要的方法有PCM（包括DPCM）、PDM（常见变体DSD）这两种。

640.webp (92).jpg

图一：主要的调制方法列表，作者Michel Bakni

在这两种方法中，PCM无疑是目前最主流的编码方式。平时常见的WAV、MP3、AAC格式都是基于PCM编码衍生而来。PCM编码主要包括“采样-量化-编码”三个部分，这里采样指的是在时间上对声音进行离散化抽样，在一秒内记录的时间点数叫做采样率；量化指的是在幅度上对声音进行离散化抽样，由于计算机一般采用二进制编码，所以n位采样深度就对应着2ⁿ个声音强度；编码则是使用二进制码保存采样量化后的文件。由于此方法大家都较为熟悉，所以在此不展开讲述。

PCM编码有一种变体——DPCM编码（以及自适应的ADPCM），与PCM不同，其记录的是帧与帧之间的差值，是一种“增量编码”，通过增量和当前帧附近的帧来预测当前帧的幅度。可以证明这种方法在一定条件下可以在保证信号分辨率的同时降低带宽占用。

之后介绍一下PDM编码，引言中的DSD格式音频就是PDM的一种，该方法使用密度分量取代PCM中的幅值数据。PDM方法采用远高于PCM的采样率对音频信号进行采集，之后仅使用0或1记录数据：即声强越高的地方，编码1的出现密度越大；反之0出现的密度越大，语言上的讲解不够直观。这里使用视觉的“连续调和半色调”进行类比[2]。如图，

640.webp (93).jpg

图二：灰度图，有不同的灰度等级

640.webp (94).jpg

图三：半色调图片，只有黑和白两种颜色

可以看出图三虽然仅有黑白两种颜色，但是给人的观感并不比图二灰度图差。这里除去一些视觉效应的影响（有不止一种创建半色调图片的方法，具体可参考“调频加网”，这里不考虑这种差异），也能帮助我们理解PDM编码格式的有效性，即通过更高的采样频率来弥补采样位深的不足。同时无论是视觉的“半色调”还是音频PDM编码都基于了人类主观感知上的低通特性：人眼具有低通特性，在一定距离上观察图片会将空间上接近的一部分视为一个整体；而对于PDM编码而言，低通滤波器就可以作为其一种较简单的D/A解码器。

同时，1bit的高采样率的音频编码还有把噪声“搬移”到高频的特性。为了理解同样举出图像的例子，事实上半色调图片不是通过简单的二值化设置来实现的；而是通过将二值化导致的误差，分布到相邻的尚未设置阈值的像素之间来提高还原性。这个过程被称为误差扩散。这种误差扩散可以把误差调制到较高的频率，结合刚刚提到的人类对低频感知更加敏感的特性，从而带给人更好的主观感受。可以对比图三——仅使用二值化的图片和半色调图片的区别理解误差扩散的效果。

640.webp (95).jpg

图四：二值化图片，可见含有噪声。

讲完了这两种编码格式，再讲讲这两种编码对应的音频存储格式。基于PCM编码方式的音频格式众多，基本可以涵盖普通用户日常所见的格式，如WAV、MP3、AAC都是基于PCM格式的录音无损保存或者压缩而来；而PDM编码用于音频的主要格式只有DSD格式，这也就是文章一开始提到的一些高档播放器采用的格式，反应在文件类型上有DFF或者镜像文件。值得一提的是，DSD文件有时候被包装为PCM格式以便于从播放设备传输到DAC设备，这种方式被称作DoP（DSD over PCM）。至于PCM与DSD编码在参数和听感上的优劣，Atsushi MARUI[3]等人在2014年的一个研究中揭示了：在统计学背景下，对同样的演奏者同时录音，使用DSD和PCM编码方式录制的音乐在主观听音上有着可闻的区别。

音频的压缩

在大量的使用场景中，传输和处理体积庞大的原始音频都会带来额外的存储和计算开销，这时候压缩算法就要起到作用了。

所谓的压缩简言之就是根据使用场景，去除冗余的部分，在降低数据量的同时不影响功能性。正如开头的例子，短视频中的音频文件并不需要做到严格的高保真，只需要突出一部分频段（如语音）即可。对于音频来说，压缩算法就是降低被认为超出大多数人听觉能力部分的音频的准确性[4]，这其中包括超出人耳听力范围之内频率的部分以及对于人类感知系统来说“无效”的部分。这种方法通常被称为感知编码或者心理声学建模；再此之后再使用MDCT或者FFT算法记录有效的音频信息。

在下半部分中，我们将详细介绍压缩算法，请大家期待。

参考文献：
[1]. Wikipedia contributors. （2021, December 17）. Modulation. In Wikipedia, The Free Encyclopedia. Retrieved 01:15, December 29, 2021, from https://en.wikipedia.org/w/index.php?title=Modulation&oldid=1060786138
[2]. Thomas Kite, Ph.D. Understanding PDM Digital Audio
[3]. Marui, A. , Kamekawa, T. , Endo, K. , & Sato, E. . （2014）. Subjective evaluation of high resolution recordings in PCM and DSD audio formats. 136th Audio Engineering Society Convention. Audio Engineering Society.
[4]. Perceptual Coding: How Mp3 Compression Works. Retrieved 01:20, December 29, 2021, from
http://web.archive.org/web/20150731055521/http://www.soundonsound.com/sos/may00/articles/mp3.htm

帐号		自动登录	找回密码
密码			快速注册

[资讯] 如何让声音罐头更美味？——浅谈音频压缩和编码（上）

相关帖子