模拟音频和数字音频中的音频信号如何工作

voxverb · 发表于 2025-7-5 00:00:01

音频信号是音乐制作和音频工程的支柱。那么它们究竟是什么呢？简单来说，音频信号是声音的表示形式——无论是作为电电压（模拟）还是数字数据（一系列数字）。当你录制人声或在手机上播放歌曲时，音频信号在幕后起作用。它们使我们能够捕捉乐器和声音的声音，操控这些声音，然后通过扬声器或耳机再现出来。

在音乐制作中，理解音频信号至关重要。如果你是刚刚开始设立家庭工作室或是一名有志成为音频工程师的初学者，你可能已经听说过像模拟、数字、信号流程、采样率和位深度这样的术语。如果这些术语听起来很技术性，不要担心——我们会进行解析。在本文结束时，你将了解麦克风如何将你的声音转化为电能，最终通过扬声器播放出精美的曲目。我们将从基础知识开始，进入数字音频的世界，进行更深入的技术探讨，最后讨论在录音、混音和母带制作中的实际应用。

那么，让我们深入探讨并揭开音频信号在模拟和数字领域的工作原理，以及这对制作伟大音乐的重要性！

模拟音频信号
声音以波的形式在空气中传播——想象一下当你把一块石头扔进水里时的波纹。这些波是空气压力的变化。模拟音频处理将这些连续的声音波转换成电的形式而不将其分割。

声波如何转化为电信号
一种叫做换能器的设备执行这种转换。换能器最常见的例子是麦克风。当你对着麦克风唱歌或演奏乐器时，麦克风内部的膜片（一种薄的膜）会随着声波的气压变化而振动。这种振动被转化为一个微小的电流，类似于（因此是“模拟”）代表原始的声波。

例如，在动圈麦克风中，声波使固定在膜片上的线圈在磁场内移动，产生相应的电信号。在电容麦克风中，声波引起电容器距离的变化，从而产生电压变化。在每种情况下，声波的连续运动都反映为连续的电波形。这个模拟电信号可以经过电缆和设备，携带你的表演印记。

模拟波形的特征（幅度、频率、相位）
一旦我们有了代表声音的电信号，它就可以被可视化为波形（在时间轴上绘制时为波浪线）。三个关键特征描述了这个模拟波形：

振幅：这是波形在任何时刻的高度或强度。在实际应用中，振幅对应于响度或音量。振幅越大，电讯号越强，声音越响亮，而振幅越小，声音越安静。如果你轻柔地弹吉他，与用力弹相比，模拟信号的振幅会相应改变（轻柔弹奏 = 小振幅，用力弹奏 = 大振幅）。
频率：这指的是波形每秒种振荡或重复的次数。频率的单位是赫兹（Hz），它对应于音调。例如，440 Hz的音是中C上方的A音（意味着波形每秒重复440次）。低频率（如50 Hz）是低沉的轰鸣声，而高频率（如10,000 Hz或10 kHz）是高音，像钹的闪烁声。人的听觉范围大约在20 Hz（非常低）到20,000 Hz（非常高）之间。一个模拟信号可以同时包含许多频率的混合——这就是声音独特音色的原因。
相位：相位描述了波形周期中某一点的时间位置。想象两个相同的波——如果一个开始得比另一个稍晚，那么它相对于第一个来说是“不同相位”的。相位有点技术性，但在组合信号时很重要。例如，如果你用两个麦克风录制一把吉他，声音可能会稍晚到达一个麦克风，导致相位差异。如果波形同步，则它们会很好地叠加；如果它们不同相位，则它们可能会部分相互抵消（使声音变薄）。在模拟音频中，相位问题可能会影响信号如何相互干扰或叠加。
音频频率的图形表示，显示低频、中频和高频波形。

这些特性（幅度、频率、相位）完全描述了一个纯模拟波形。模拟音频信号是连续的，这意味着它们在时间上捕捉到这些特性的所有微妙变化，没有任何间隙。这种连续性往往赋予模拟声音某种平滑度或“自然”的品质。

模拟信号的优缺点
模拟音频在音乐制作中各有其优势和缺点。让我们来分析一下：

模拟音频信号的优势：

连续信号：模拟捕捉声音为连续波形，保留了非常细微的细节（在理论上是无限分辨率）。没有“阶梯式”近似——信号与原始现象一样光滑。
自然音效和“温暖感”：许多音乐家和工程师将模拟音效描述为温暖或丰富。微妙的不完美如电子管或磁带的谐波失真和轻微的噪音可以为音乐增添令人愉悦的色彩。例如，稍微过载电子管放大器会产生平滑的饱和效果，使吉他或人声听起来更丰满。这些是由模拟设备有机产生的，并且通常被认为在音乐上令人愉悦。
没有数字伪像：模拟信号不会出现量化误差、混叠或数字延迟等问题（我们稍后会解释这些）。如果你过度驱动模拟磁带或混音通道，它不会立即硬限幅；它会逐渐饱和，这可能比数字限幅更易于听觉接受。
简单的连接：你可以用电缆将一个设备的模拟信号连接到另一个设备（前提是电平匹配）。只要一切都在模拟范围内，就不需要转换，因此可以轻松设置全模拟信号链。
模拟音频信号的缺点：

噪音和失真：每个模拟组件都会引入一些背景噪音或嗡嗡声（噪音）和潜在的失真。在长电缆或多台设备中，噪音可能会积累。如果你复制模拟录音（例如从磁带到磁带的录音），每一代都会增加更多的噪音和质量损失。
退化：模拟媒体和信号会退化。磁带会随时间磨损并失去高频成分；黑胶唱片会划伤并引入爆裂声/点击声；甚至模拟电子组件在老化过程中也会漂移或添加噪声。维护模拟设备（校准磁带机、更换混音器中的旧电容器）是使用模拟技术的一部分。
有限的编辑和灵活性：模拟录音的编辑（如用剃须刀切割磁带并拼接）相比数字编辑需要更多的劳动。你不能像在数字控制台上那样瞬间调回混音设置——你必须手动重置旋钮和推子。这种无法瞬间调回和撤销的功能可能会减慢制作流程。
成本和便利性：高质量的模拟设备（前置放大器、模拟压缩器、磁带录音机）可能非常昂贵且笨重。此外，模拟设置通常需要更多的外部设备和连接。相比之下，一台装有软件的笔记本电脑可以以极低的成本和空间，以数字方式模拟一整间模拟设备的房间。
音频制作设备设置，配有磁带录音机和黑胶唱片机。

简而言之，模拟音频提供了许多人大胆珍视的经典音质和连续性，但它在噪音、维护和灵活性方面带来了挑战。在现代工作室中，模拟设备通常与数字系统一起使用，以获得“两者兼得”的效果。

数字音频信号
数字音频已经彻底改变了音乐制作。与其说是连续的电波，数字音频信号是一连串代表该电波的数字（数据）。

模拟信号如何转换成数字数据（模数转换过程）
要从模拟（连续电压）转换为数字（数据），我们使用模数转换器（ADC）。这个过程就像快速拍摄音频波形的系列快照，并记录这些快照的数值。以下是ADC过程的简化步骤：

采样：模拟信号以非常高的速度进行测量（采样）——每秒多次。每次测量捕捉到模拟波形在那一刻的瞬时幅度（电压水平）。这些测量的速度称为采样率测量单位是赫兹（每秒样本数）。例如，常见的采样率是44,100赫兹（通常称为44.1千赫兹），这意味着每秒采样44,100次。每个采样就像在波形图上标记一个点。采样率越高，这些点就越能准确跟踪声音中的快速变化（即更高频率）。根据奈奎斯特-香农定理，能够准确捕获的最高音频频率大约是采样率的一半。因此，44.1千赫兹可以捕获最高约22千赫兹的频率，这涵盖了人类听觉的整个范围。专业音频常常使用48千赫兹、96千赫兹甚至更高的采样率，以获得更高的保真度或减少滤波伪像。
量化：每个采样幅度随后会舍入到最接近的数字系统可以存储的可用数值。这个值的精度由位深度决定。你可以将位深度看作是小数位的个数（尽管它是二进制的）。例如，16位音频可以将每个样本表示为65,536种可能的幅度值之一，而24位音频具有更精细的分辨率，每个采样大约有1670万种可能的值。量化基本上是将模拟电压转换为二进制数。不可避免地，除非模拟电压正好等于一个可表示的值，否则会有一个小小的舍入误差；这个舍入差异被称为量化误差这表现为背景中的非常低水平的噪声。较高的位深度使这种错误变得如此之小，以至于噪声实际上是可以忽略的。
编码/存储：然后将这串数字（采样）进行存储或传输。这可能是指将数据写入硬盘上的WAV文件，通过USB从音频接口发送到计算机等。关键在于，一旦以数字形式存在，音频信号就只是数据——它可以被复制、用软件处理，或者在传输过程中不会有任何代际损失。此时，它只是0和1。
图示说明了模数转换（ADC）过程，包括采样点和量化信号。

完成这些步骤后，我们就得到了音频信号的数字表示。要通过扬声器听到它，使用数字-模拟转换器（DAC）进行反转：使用这些数字通过滤波器平滑处理来重建连续波形，并输出为可以驱动扬声器或耳机的电信号。

理解采样率和位深度
采样率和位深度是数字音频信号中的基本设置，直接影响音质和文件大小，所以让我们用音乐术语来解释它们：

采样率
这是每秒音频波形被采样的频率，以Hz为单位。这类似于视频中的帧率。较高的采样率意味着每秒有更多“帧”的音频，可以捕捉到更高的频率和更多的时间细节。常见的采样率：

44.1 kHz： CD标准，对大多数音乐来说足够使用（覆盖高达22 kHz的频率）。
48 kHz: 视频制作的标准，许多工作室使用；覆盖频率高达24 kHz。
96 kHz 和 192 kHz：在一些专业录音和母带处理中使用的高分辨率采样率。它们可以捕捉到超声波频率（超出人类听觉范围）。虽然人类无法听到超过约20 kHz的频率，但这些较高的采样率可以让某些处理（如数字均衡或音高移调）更准确，或者减少滤波器的痕迹。但缺点是文件大小会更大，CPU使用也会增加。
关键点：将采样率翻倍可以翻倍数据（和文件大小），而不会导致可听见的质量超过一定限度。对于典型的听力，44.1或48 kHz就足够了，但许多制作人以96 kHz录制，以期在混音/母带处理中获得潜在的微妙好处。

显示在不同采样率（kHz）下的最大频率的图表。
位深度

这决定了每个采样在幅度细节方面的分辨率，类似于你能捕捉到的不同音量“级”的数量。这会影响动态范围（最响亮的声音和噪声底之间的差异）。常见的位深度：

16位：每个采样有2^16（65,536）种可能的值。理论动态范围约为96分贝。这是CD质量。96分贝是一个巨大的范围（从耳语到喷气式飞机实际上）。然而，当录音和混音时，如果电平没有完美获得，16位可能会有些限制，因为较安静的细节可能会更接近噪声底。
24位：每个采样有2^24（约1670万）个值。动态范围跃升至大约144 dB，远远超过了我们在现实生活中遇到的（即使是摇滚音乐会最响处也可能是110-120 dB）。24位音频提供了大量的余量。这就是几乎所有工作室都使用24位录音的原因：你可以留有健康的余量（这样永远不会饱和转换器），同时在安静部分仍然有非常低的噪音和丰富的细节。它是宽容的——你不需要像16位那样将输入电平调得那么高。
32位浮点数：一些现代系统提供32位浮点数记录。这具有天文般的动态范围（超越任何现实世界场景，基本上消除了记录软件中的削波）。它主要有助于避免内部削波并提供最大的处理裕量。但由于32位浮点文件很大，而大多数DAC最大为24位，这在交付格式中是过度的。这更多是一种生产上的便利。
简而言之，采样率影响频率细节，位深度影响音量细节。在音乐制作中，高位深度（24位）是录音的标准，采样率可以根据需要选择（44.1k或48k通常足够，如果需要处理或特定项目则可选择更高）。这些设置确保你的数字音频能忠实地再现原始模拟信号。

数字音频的优缺点
现在让我们来考虑数字音频的优缺点，特别是在音乐制作的背景下：

数字音频的优势：
原始副本和编辑：数字音频可以反复复制而不损失质量。你的WAV文件的第100个副本与原始文件字节相同。这改变了模拟时代每复制一次就会降质的情况。编辑也非常简单——你可以在数字音频工作站中非破坏性地剪切、粘贴和重新排列音频，并撤销任何错误。这种灵活性开辟了像复杂的多轨编辑、时间对齐表演、音高校正等创意可能性，而这些在模拟磁带的情况下将非常难以实现。
低噪音和宽动态范围：通过适当的设置（24位或更高），数字录音具有极低的噪音底和巨大的动态范围。基本上，如果设置正确，你不会听到数字媒介固有的任何嘶嘶声或嗡嗡声。你更可能听到麦克风或前置放大器的噪音，而不是数字系统自身的噪音。此外，正常工作时，数字系统不会添加其自身的谐波失真——输入的是什么，输出的就是什么，非常透明。
便利性和成本：一个基本的数字录音设置只需要一台计算机、一个音频接口和软件（数字音频工作站，DAW）。这取代了传统的模拟设备需要占用的空间。在DAW中，你可以同时运行数十个均衡器、压缩器或虚拟乐器插件——这在只有物理模拟设备的情况下是无法实现的，除非你有巨额预算。数字音频的便携性也是一个优点——你可以通过互联网向世界各地的人发送混音，将整个音乐库存储在便携式硬盘上等等。
高级处理：一些音频信号处理过程仅在数字领域可行。例如，数字信号处理 (DSP) 算法可以进行线性相位均衡、自动化、复杂的多段压缩，或者像声音修复（降噪、消除点击声）这样的事情，模拟设备无法如此精确地完成。MIDI和数字乐器允许可调用的、精确的作曲和声音设计。简而言之，数字技术开启了一个精确和可能性的世界。

数字音频的缺点：
需要转换：要录制或播放声音，你必须将模拟信号 <-> 数字信号进行转换。这个转换过程，如果不小心处理，可能会引入问题。早期的数字音频信号转换存在较低的分辨率和明显的伪像。现代转换器非常出色，但如果使用低采样率或位深度，你可能会得到混叠（来自高于采样率一半的频率的奇怪伪像反映为虚假音调）或量化噪声（低位深度产生的粒状低级噪声）。我们通过适当的滤波和抖动来减轻这些问题，但在纯模拟信号路径中不存在这些问题。
数字削波：在模拟系统中，如果电平过高，通常会得到柔和的饱和失真（如上所述，甚至可以听起来不错）。但在数字系统中，如果超过最大电平（0 dBFS，满刻度电平），就会削波 – 波形在顶部被平切。数字削波听起来很生硬，通常是非常不希望听到的（想想刺耳的失真）。没有优雅的过载；它只是遇到障碍。因此，工程师必须谨慎留出余量，防止任何采样超过限制。幸运的是，使用24位时，留出6-12 dB的余量仍然可以得到很好的质量。
延迟：数字系统由于缓冲和处理时间而引入延迟（延迟）。当你通过计算机运行音频信号时，它可能比输入晚几毫秒（或几十毫秒）出来。在模拟中，延迟几乎是即时的（电子信号传播速度极快）。当进行多重跟踪或通过数字音频工作站进行现场监控时，延迟可能成为一个问题——如果延迟过高，可能会打乱表演者的节奏或被听到像回声一样。
技术故障的潜力：数字音频依赖于软件、驱动程序和时钟同步。我们都有过听到诸如爆音、点击声或数据丢失等故障声的经历，当计算机无法跟上或时钟同步失败时。例如，如果你的CPU因插件过多而过载，你可能会遇到缓冲区下溢导致明显的点击声。或者如果两个数字设备（例如一个数字调音台和一个音频接口）没有同步时钟，你会听到定期的爆音。相比之下，模拟系统可能会嗡嗡作响或嘶嘶作响，但不会因为软件崩溃而突然输出一连串的数字噪音或停止工作。管理一个稳定的数字系统需要一些技术知识（优化缓冲区大小、使用正确的驱动程序等）。

总的来说，数字音频信号提供了出色的保真度和便利性，但你必须注意电平和系统设置。它今天之所以成为主要媒介，是有充分理由的——其优势远大于大多数应用的缺点，但聪明的制作人和工程师会学习如何避免陷阱（如削波和延迟），甚至在需要时结合模拟元素。

数字信号与模拟信号的失真和噪声比较
每个音频信号都有一定的失真和噪音——但模拟和数字之间的类型和特性差异很大，理解这一点有助于排除故障和进行创意决策：

模拟失真/噪声
在模拟系统中，失真通常来自于组件过载。例如，过度推动前置放大器会导致其变压器或电子管饱和，产生温暖的过载（一种产生新频率（通常是具有音乐相关性的泛音）的失真形式）。磁带饱和是另一种形式：当磁带被驱动带有热信号时，它开始压缩并轻柔地失真峰值，产生一种令人愉快的磁带温暖感。这些失真是通常渐进的——你推得越多，失真越多，所以它有点可以原谅。许多心爱的模拟设备即使在正常工作水平也会有意添加一些谐波失真（例如，模拟均衡电路）。可能不是完全干净的，这可以增加它的特色。

模拟噪声通常被听到为嘶嘶声（电子元件的白噪声）、嗡嗡声（来自市电电气干扰）或随机爆裂声（如果某些东西有故障）。重要部分：模拟噪声通常低电平且与信号无关（只是背景嘶嘶声），模拟失真通常具有软限幅特性。我们的耳朵往往能容忍甚至喜欢少量的这些瑕疵。这就是为什么吉他手喜欢管放大器的失真，混音师喜欢模拟磁带的粘合剂或者控制台饱和。然而，有一个限制——失真太多会变得明显失真，噪音太多会掩盖音乐。因此，模拟工程师的目标是获得良好的信噪比（录制信号在噪音之上足够“热”，但不致于严重失真）。

数字失真/噪声
在数字领域，理想的处理不会引入任何噪声或失真（数字数学可以是完全透明的）。然而，主要的问题出现在转换阶段或如果电平被处理不当：

剪辑
如前面所述，如果数字信号超过0dBFS，它就会饱和失真。数字饱和失真是突然的——波形在顶部被压平，导致非常尖锐、蜂鸣的失真，通常听起来很不好听。即使瞬间饱和失真（一个采样）也能产生高频率的点击声。因此，数字音频信号要求你通过留有裕量或使用限幅器来防止饱和失真。

Clipping-Representation-in-Logic-Pro-e1741618253523.jpg

Clipping-Representation-in-Logic-Pro-e1741618253523.jpg

量化噪声：
在较低的位深度下，采样舍入会增加一种颗粒感的噪声。例如，如果你以8位录制，会听到很多噪声，因为8位只有256个级别，波形被非常粗略地近似。在16位及以上，量化噪声通常是在听觉上不可闻的，尤其是如果使用了 dither dither是一种在量化之前添加一小部分噪声的技术，以使误差随机化，从而在防止相关失真方面使量化噪声不那么明显。在实践中，只需知道，如果你导出为16位（如CD），在最后一步添加dither会在减少量化伪像的同时保持音频质量。

数字音频失真
如果数字处理出错，你可能会得到非常非模拟类型的失真：例如，混叠（当由于滤波不足或采样率过低，高频率折叠回低频率时——可能会听起来像不应该在那里的奇怪非谐波音调）。或者抖动，这是数字时钟的定时不规则性，导致轻微的失真或噪声地板的拓宽。这些是技术问题，现代系统被设计成尽量减少它们（例如，好的ADC有滤波器来防止混叠，稳定的时钟来避免抖动等）。

背景噪音
数字本身不会增加噪音，但是你的模拟前端（麦克风、前置放大器等）仍然会。在安静的录音中，你在数字录音中所听到的“噪音”通常只是麦克风的自噪音或捕捉到的环境房间噪音，而不是数字介质。数字噪音在24位时是非常低的（-144 dBFS），几乎可以忽略不计。因此，如果你在数字录音中听到嗡嗡声或嘶嘶声，不是“数字”部分造成的；很可能是链路中的模拟部分或可能是 dithering造成的（这非常微妙）。

总结失真/噪声
模拟失真和噪声可以增加风味（在一定程度上），而数字失真通常应避免（除了像数字比特粉碎器这样的创意效果，它故意降低比特深度以获得粗糙的声音）。许多今天的插件模拟模拟失真， precisely because pure digital is sometimes太干净。制作人会使用磁带模拟或电子管放大器插件来有意地获得那种模拟效果。目标是利用每种的优势：在链的关键部分用数字保持清洁和无噪声，而在音乐上适当的部位添加模拟风格的失真。

音频制作中模拟式失真和数字限幅波形的比较图表。

结论
音频信号——无论是模拟还是数字——都是捕捉和创作音乐的核心。正如我们所探讨的，模拟信号就像声音的自然语言，具有平滑连续的波形，已经被用来录音超过一个世纪；而数字信号则将这些波形转换成计算机的语言，带来了惊人的精度和灵活性。在现代音乐制作中，两者常常并存：麦克风和乐器最初是模拟的，然后被转换成数字进行编辑和混音，有时再用模拟设备进行修饰，最终通过模拟扬声器到达我们的耳朵。

对于初学者来说，不要被技术术语吓倒是很重要的。振幅、频率、采样率和位深度等概念可能显得抽象，但它们归结为你可以通过练习理解和听到的设置。本文深入浅出地解释了初学者的内容，并涉及中级/高级细节（如相位、抖动、混叠等），让你有一个深入学习的路线图。如果你不能一下子全部掌握，不要担心——理解音频信号是复杂的，即使是经验丰富的工程师也在不断学习新东西。

Side Menu

[音频] 模拟音频和数字音频中的音频信号如何工作

相关帖子

网站相关

!account!
密码：