音频修复入门

jotter · 发表于 2008-8-1 23:58:14

音频恢复是一个非常广泛的术语，因此很难精确定义。非正式地，可以描述如下。我们听到的每种声音都包括声音的原始有用部分（通常称为“信号”），以及在传输或录制过程中获得的额外的、不需要的部分。声音中不需要的部分通常称为“噪音”。噪音可能有多种来源。例如，当您在车内拨打手机时，信号就是您的声音。相关噪声可能由许多其他来源组成，包括交通、汽车发动机、电话麦克风的失真或蜂窝网络的失真。音频恢复的目的是最大限度地减少这些不需要的噪音，同时最大程度地保留原始信号。

恢复音频有多种方法。您选择的方法应基于音频材料中发现的失真的性质以及音频信号的源。

本初级读物重点关注录制材料的音频恢复，主要是录制的音乐材料。就在 15 年前，高质量的音频修复活动还仅限于一小部分音频专业人士。这些活动需要专门的设备实验室，其成本对于典型的消费者来说是不合理的。当声音数字化和数字信号处理变得广泛应用时，这些新技术允许用专门但非常复杂的软件应用程序取代昂贵的模拟设备。最近配备优质声卡的高速 PC 的普及使得音频修复活动变得更加经济实惠。如今，数字音频修复几乎已经成为主流技术。它的近亲数字图像修复已经被许多人广泛使用，他们唯一的资格就是拥有 PC 和数码相机。

开发音频修复技术的主要动机之一是推动密纹唱片和磁带的数字化。许多人在这些旧媒体上存储了一系列喜爱的音乐。很多时候，他们希望保存自己的收藏并维持或提高录音的质量，如果不进行干预，这些录音最终会随着时间的推移而降低。由于并非所有旧唱片都会以高质量数字格式（CD、DVD 等）发行，因此许多人希望保留他们已经拥有的收藏。

本入门介绍了用于恢复从 LP、磁带或麦克风录制的音频的各种软件方法。如果正确应用这些方法，它们不仅有助于在不改变的情况下保存旧录音，而且还可以显着提高录音的质量。许多音频软件开发商都提供了专为音频恢复目的而设计的基于计算机的应用程序。有关这些程序功能的详细信息，请参阅其相关手册。本入门手册仅讨论使用这些应用程序的基本原理，而不讨论各个软件产品本身。

失真的类型
大多数音频数据介质（例如乙烯基或磁带）的表面由于长期使用和存储而不断退化。任何乙烯基表面都容易出现微裂纹、划痕和污垢。磁带的耐用性更差。胶带的底部会变得脆弱和坚硬，磁性表面层会磨损和剥落。此外，磁带容易消磁。经过一段时间后，结果是音频质量不断恶化。这种恶化表现为不必要的噪音、咔哒声和爆裂声。

为了停止恶化过程，可以将音频数据数字化并保存到 PC 的硬盘或 CD 或 DVD。以数字形式，音频数据可以存储和使用很长时间而不会降低其质量。实际时间取决于数字媒体的类型和许多其他因素。

然而，音频数字化并不能消除音频中发现的任何失真或噪音。音频数字化时出现的所有失真都会保留在生成的数字声音中，并且此过程实际上会增加声音的失真。音频恢复是通过应用特殊的恢复算法来处理数字声音来抑制或消除此类失真的过程。

音频修复的首要原则用一句格言来表达：“不要伤害”。这一原则的应用需要深思熟虑和小心谨慎地进行高质量修复。通常，在录音中留下一些噪音比删除大部分好材料要好。很多时候，这样的过程只是用新的扭曲取代旧的扭曲。如果无法实现高质量的音频恢复，通常最好将声音素材保留在其原始状态。

由于人类的听力很容易适应安静的背景噪音或轻微的滴答声，因此这些噪音很少会妨碍我们享受音乐本身。与此同时，许多听众对音频材料的失真感到恼火，例如声音的不自然音染。本入门书中描述的音频恢复方法可用于获得音频数据（主要是音乐）的质量恢复。

不幸的是，音频修复的本质需要反复试验的方法。你不能只是告诉软件让你糟糕的录音听起来更好。您必须仔细识别失真的性质，应用其中一种恢复算法，并听取结果。如果您对结果不满意，则必须更改算法的参数之一并重复该过程。可能需要多次迭代才能获得所需的结果。

由黑胶唱片、磁带或麦克风录制的音频失真的主要类型可分为以下几类之一。要正确应用音频恢复算法，您必须识别要恢复的录音中发现的音频失真的类别。您还必须认识到软件方法无法很好地解决哪些失真类型，以及软件方法根本无法消除的失真类型。

请注意，以下列表指的是乙烯基或磁带特有的最典型的失真。它并不是失真类别的明确列表。

第一类失真称为背景噪声。该组可进一步分为以下子组：

固定背景噪声 - 具有恒定电平和频率的噪声，例如磁带或麦克风的嘶嘶声、电源线噪声、驱动电机嗡嗡声等。
非平稳背景噪声 - 具有可变电平和频率响应的噪声，例如安静的背景语音、水声、风声、汽车发动机声等。
第二类失真称为脉冲噪声。该组可进一步分为以下子组：

短时噪声脉冲 - 由随机幅度和随机持续时间的短时（最多 3.0 ms）脉冲组成的噪声。这种失真对于黑胶唱片来说是最典型的，通常用爆裂声、咔哒声或爆裂声等词语来描述。小划痕也可以包含在这一类中。
瞬态噪声脉冲 - 由相对较长持续时间的噪声脉冲组成的噪声。最典型的例子就是长划痕。
第三类失真称为音高变化缺陷。这些音调失真通常与音频介质的不均匀运动或介质本身的变形有关。大多数情况下，这些扭曲发生在磁带上，但也可能发生在已变形的黑胶唱片上。这些失真通常是由于设备故障或介质损坏而发生，而不是由于录音随着时间的推移而自然恶化。有时，可以使用软件方法消除这种失真，但这需要定制的方法；一般的修复应用程序是不合适的。本入门书不涉及消除此类扭曲。

还有其他类型的失真，例如各种性质的衰落、外来声音以及由于介质严重损坏或音频设备故障（卡住的磁带、破裂的LP、麦克风自触发等）而导致的信号撕裂。这种扭曲实际上是不可能消除的，因此在本入门中不会进一步考虑它们。

因此，我们确定了黑胶唱片、磁带和麦克风录音特有的五种基本失真类型。在本入门书的其余部分中，我们将主要讨论固定背景噪声和短时噪声脉冲。这两类失真是最典型的，可以通过软件方法有效抑制。其他类型的扭曲不太常见。在许多情况下，不可能消除此类失真，有时可以抑制它们，但该过程需要定制方法，并且通常会伴随着音频材料质量的显着损失。在大多数情况下，过程的复杂性并没有与由此产生的质量改进相平衡。

非平稳背景噪声的一个例外是黑胶唱片中常见的失真，称为低频隆隆声。通过从录音中去除低于 30-40 Hz 的频率可以有效抑制这种失真。在黑胶唱片的情况下，去除这些频率不会导致有用音乐素材的显着损失，特别是因为这些频率通常是完全听不见的。有时可以使用均衡器消除这些频率，但是建议使用特殊的高通或低切滤波器。此类滤波器（高通、低通、带通、高切、低切、带切、陷波滤波器等）从录音中去除特定频带。用户可以调整这些频段的边界并设置其他参数。这些滤波器包含在许多具有音频恢复功能的计算机应用程序中，并且它们也可以在声音编辑程序中使用。

本入门书的其余部分重点介绍固定背景噪声和短时噪声脉冲。这两类失真是最典型的，可以通过软件方法有效抑制。

去除短时噪声脉冲
这种类型的失真最常见于密纹唱片的录音中。可以听到单独的咔哒声或轻微的爆裂声，这是由 LP 表面上的微裂纹（例如灰尘和污垢）引起的。如果您的录音包含这种类型的失真，那么您必须先解决它们的删除问题，然后再尝试解决其他类型的失真。如果不受影响，这些咔嗒声和爆裂声可能会对其他背景噪声消除算法的性能产生负面影响。

有多种类型的点击消除算法。这些算法通常涉及两个步骤。第一步是检测点击型扭曲。算法通过观察录音电平的突然增加（也称为对信号的攻击）来识别这些失真。算法中的一个参数准确地确定了对于被识别为失真的任何点，级别增加的大小应该有多大。大多数情况下，此参数称为灵敏度或阈值（有关确切名称，请参阅算法手册）。要确定灵敏度设置的适当值，您可能需要多次更改此参数并查看结果。错误地设置此参数将导致许多点击未处理，或者算法也将开始修改声音本身的快速攻击（例如小军鼓）。

算法检测到失真后，会尝试纠正问题。根据算法的类型，它要么尝试用另一段具有相似特征的声音替换短失真，要么使用来自相邻（良好）声音的数据对失真进行插值。如果长度不超过 3.0 毫秒，大多数算法都可以正确恢复扭曲的片段。

某些算法允许您设置参数来定义要修复的片段的最大长度。为了恢复黑胶唱片的质量，该参数应设置在1.5至3.0毫秒的范围内。您使用的精确值应基于对要恢复的实际音频数据的实验。某些算法具有其他可能影响生成音频质量的设置。要调整这些设置，请参阅算法手册。

去除固定背景噪声
当使用黑胶唱片、磁带或麦克风进行录音时，背景噪声失真通常表现为磁带或麦克风的嘶嘶声、电源线噪声和/或驱动电机嗡嗡声。

对于语音录音，抑制静态背景噪声的最简单方法是消除所有不在正常语音范围内的频率。其中包括低于 100-300 Hz 和高于 4000-5000 Hz 的频率。在某种程度上，可以使用均衡器来执行此过程，但是建议使用特殊的带通滤波器，仅在记录中留下适用的频率范围。

然而，这种方法在恢复音乐录音方面作用不大。此类录音的频率范围非常宽，通常与静态背景噪声的频带紧密混合。在音乐录音中，消除此类失真的最有效方法是使用基于 FFT（快速傅立叶变换）的算法。这些算法直接改变录制声音的频谱。为了正确执行，这些算法需要一个孤立的噪声样本，不包含您希望从录音中删除的任何其他声音。

同样，此类算法的使用涉及两个步骤。第一步是识别录音中包含的噪声片段，其中不包含任何其他声音。您必须查找录音中包含失真但不包含音乐或语音的部分。您想要恢复的录音必须包含这样的噪音片段。否则，您将无法使用此方法获得高质量的结果。因此，您必须首先确定此类片段在录音中的位置。该算法分析片段并保存其频率特征。

在第二步中，算法从整个录音的频率内容中“减去”噪声样本的频率特性。这显着减少了录音中静态背景噪声的存在。这里用引号引起来的“减法”一词是因为这个过程比简单的数学运算复杂得多。通常，您可以使用应用程序中的适当设置来调整“减去”噪声的量。同样，可能需要使用不同设置进行多次迭代，直到获得满意的结果。

值得注意的是，基于 FFT 的算法并不是理想的恢复工具。它们都会给录音添加一定程度的失真。一般来说，这种失真要么是所谓的音乐噪音（类似于水流的安静潺潺声或金属丝的拖曳声），要么是不想要的声音染色——金属声。好消息是，现代基于 FFT 的算法几乎完全缓和了这种失真。但是，您需要考虑这些额外的扭曲。不要尝试从录音中消除太多噪音，因为这会导致引入新失真的风险更大。通常最好在录音中留下一些噪音，同时保持其生动和自然的声音。

还有其他用于去除静态背景噪声的算法和方法。一般来说，它们仅对某些类型的固定背景噪声有效。例如，旧唱片或磁带录制的录音中常见的失真称为白噪声，这是由于音频介质退化的随机性而发生的。这种噪声在整个频率范围内都是均匀的背景嘶嘶声，通常被称为嘶嘶声。

白噪声的一个显着特征是它在录音频谱中包含的所有频率上具有相同的表示。要消除此类噪声，您可以使用基于 FFT 的算法和一些基于声音自回归 (AR) 模型的其他算法。AR 算法可以对声音进行均匀平滑，从而减少构成白噪声的微小声音变化。AR 算法的优点在于，它们不会添加通常伴随基于 FFT 的算法的失真，并且不需要失真的样本片段。然而，AR 算法可以明显地削减录音的高频成分，有时还会增加其他失真。因此，您需要仔细调整这些算法的设置，并注意不要尝试去除录音中过多的噪声成分。这些算法仅涉及白噪声或嘶嘶声的消除。

特定背景噪声的另一个常见示例是电源线噪声。这是 50 或 60 Hz 且跨越多个频率的均匀嗡嗡声。如果您的录音中有一个片段仅包含此类噪声，则可以使用基于 FFT 的算法将其删除。但是，也可以使用“陷波滤波器”将其去除。这种类型的滤波器仅去除非常窄的频带。由于要去除的频带非常窄且特定，因此对声音的干扰非常小。“陷波滤波器”可用于消除电源线噪声，而不会增加任何明显的新失真。

帐号		自动登录	找回密码
密码			快速注册

[转载] 音频修复入门

相关帖子