音频应用   音频插件联盟,正版插件,欢迎大家选择!

 找回密码
 快速注册

QQ登录

只需一步,快速开始

阅读: 15922|回复: 4

[解码器] 各种音频编解码技术介绍

  [复制链接]

2万

积分

4

听众

469

音贝

音频应用初级会员

Rank: 6Rank: 6

积分
28059
发表于 2010-4-6 | |阅读模式
音频应用公众号资讯免费发布推广
各种音频编解码技术介绍
一、为什么要进行音频编解码

随着人们对多媒体图像和声音的要求越来越高,在高清晰数字电视(HDTV )和数字电影中不仅应有高质量的图像,也应当具有CD 质量的立体声。因为用数字方法记录声音比用模拟方法记录声音具有更强的优势,例如传输时抗噪声能力强、增加音频动态范围、多次翻录没有信号衰减等。但是数字声音最大的缺陷是记录的数据量大,表现在两个方面:其一是在传输过程中,传输数字声音需要占用很宽的传输带宽;其二是在存储过程中,需要占用大量的存储空间。所以在数字音频中需要采用数字音频压缩技术,对音频数据进行压缩。

二、音频编解码原理

每张CD 光盘重放双声道立体声信号可达74 分钟。VCD 视盘机要同时重放声音和图像,图像信号数据需要压缩,其伴音信号数据也要压缩,否则伴音信号难于存储到VCD 光盘中。一、伴音压缩编码原理

伴音信号的结构较图像信号简单一些。伴音信号的压缩方法与图像信号压缩技术有相似性,也要从伴音信号中剔除冗余信息。人耳朵对音频信号的听觉灵敏度有规律性,对于不同频段或不同声压级的伴音有其特殊的敏感特性。在伴音数据压缩过程中,主要应用了听觉阈值及掩蔽效应等听觉心理特性。

1、阈值和掩蔽效应

(1) 阈值特性

人耳朵对不同频率的声音具有不同的听觉灵敏度,对低频段(例如100Hz 以下)和超高频段(例如16KHZ 以上)的听觉灵敏度较低,而在1K-5KHZ 的中音频段时,听觉灵敏度明显提高。通常,将这种现象称为人耳的阈值特性。若将这种听觉特性用曲线表示出来,就称为人耳的阈值特性曲线,阈值特性曲线反映该特性的数值界限。将曲线界限以下的声音舍弃掉,对人耳的实际听音效果没有影响,这些声音属于冗余信息。

在伴音压缩编码过程中,应当将阈值曲线以上的可听频段的声音信号保留住,它是可听频段的主要成分,而那些听觉不灵敏的频段信号不易被察觉。应当保留强大的信号,忽略舍弃弱小的信号。经过这样处理的声音,人耳在听觉上几乎察觉不到其失真。在实际伴音压缩编码过程中,也要对不同频段的声音数据进行量化处理。可对人耳不敏感频段采用较粗的量化步长进行量化,可舍弃一些次要信息;而对人耳敏感频段则采用较细小的量化步长,使用较多的码位来传送。

(2) 掩蔽效应

掩蔽效应是人耳的另一个重要生理特征。如果在一段较窄的频段上存在两种声音信号,当一个强度大于另一个时,则人耳的听觉阈值将提高,人耳朵可以听到大音量的声音信号,而其附近频率小音量的声音信号却听不到,好像是小音量信号被大音量信号掩蔽掉了。由于其它声音信号存在而听不到本声音存在的现象,称为掩蔽效应。

根据人耳的掩蔽特性,可将大音量附近的小音量信号舍弃掉,对实际听音效果不会发生影响。既使保留这些小音量信号,人耳也听不到它们的存在,它属于伴音信号中的冗余信息。舍弃掉这些信号,可以进一步压缩伴音数据总量。

经仔细观察,掩蔽效应分为两大类,一类是同时掩蔽效应,另一类是短时掩蔽效应。其中,同时掩蔽效应是指同时存在一个弱信号和一个强信号,两者频率接近,强信号将提高弱信号的听阈值,将弱信号的听阈值提高到一定程度时,可使人耳听不到弱信号。例如,同时出现A、B 两声,若A 声的听觉阈值为50dB ,由于存在另一个不同频率的B 声,将使A 声的阈值提高到64~68dB ,例如取68dB ,那么数值(68~50)dB=18dB ,该值称为掩蔽量。将强大的B 声称为掩蔽声,而较弱的A 声称为被掩蔽声。上述掩蔽现象说明,若仅有A 声时,其声压级50dB 以上的声音可以传送出去,而50dB 以下的声音将听不到;若同时出现B 声,B 声具有同时掩蔽效应,使得A 声在声压级68dB 以下的声音也听不到了,即50~68dB 之间的A 声人耳也听不到了,这些声音不必传送,即使传送也听不到,只须传送声压级68dB 以上的声音。总之,为了提高一个声音的阈值,可以同时设置另一个声音,使用这种办法可以压缩掉一部分声音数据。在周围十分安静的环境下,人耳可以听到声压级很低的各种频率声音,但对低频声和高频声的掩蔽阈值较高,即听觉不灵敏。经研究还发现,掩蔽声越强,掩蔽作用越强;当掩蔽声与被掩蔽声的频率相差越小,掩蔽效果越明显,两者频率相等时,掩蔽效果最佳;低频声(设为B) 可有效地掩蔽高频声(设为A),而高频声(设为B) 几乎不能掩蔽低频声(设为A) 。因而输入信号时,在受掩蔽的频带内加入更大的噪声时,人耳也感觉不到与原始信号有所区别。上述的同时掩蔽效应,又称为频域掩蔽效应,它主要反映在频域方面对掩蔽作用的影响。在声音压缩编码中,更多地使用单频声音的掩蔽效应。

如果A 声和B 声不同时出现,也可发生掩蔽作用,称它为短时掩蔽效应。短时掩蔽又可分为两种类型,作用仍可持续一段时间,即后向掩蔽和前向掩蔽。后向掩蔽是指掩蔽声B 消失后,其掩蔽作用仍可持续一段时间,一般可达0.5~2 秒。掩蔽机理是人耳的存储效应所致。而前向掩蔽是指被掩蔽声A 出现一段时间后出现掩蔽声B,只要A、B 声音隔不太大(一般在0.05~0.2 秒以内),B 也可对A 起掩蔽作用。掩蔽机理是A 声尚未被人耳感知接受时,强大的B 声已来临所致。在实践中,后向掩蔽有较高的应用价值。短时掩蔽效应具有很强的时域结构特性,故又称为时域掩蔽效应。在声音压缩编码中,应兼顾好人耳的频域和时域两种掩蔽效应。

三、几种基本音频编解码介绍

1、MPEG-1 音频编码

编码流程:

下图是基于MUSICAM( 掩蔽模式通用子带编码和多路复用)的MPEG-1 音频压缩编码方框图。输入信号是经过取样的二进制PCM 数字音频信号,取样频率可以取44.1KHz 、48KHz 或32KHz ,该音频数码信号的码值与原来采样信号的幅度、频率成正比。



数字音频信号首先进入数字滤波器组,它被分成等带宽的32 个子频带,可由数字滤波器输出32 个子带数据信号。这种处理方法与图像编码信号进行DCT 变换的作用相似,但不是像图像信号那样分为64 种余弦频率信息,这里仅分成32 个子带,即将音频数据流改为32 种频率的组合。声音的分解力低于图像,这种处理方法是可行的。然后,对32 个子带的伴音数据进行再量化,以便再压缩数据量。对于各个子频带的量化步长不相同,量化步长是根据人耳的听觉阈值和掩蔽效应而确定的。经过量化处理的已压缩数据,保留了伴音信息的主体部分,而舍弃了听觉效果影响较小的伴音信息。

进入编码系统的输入信号,分流部分信号送到并列的1024 点快速傅利叶变换器(FFT) 进行变换,它检测输入信号每一个瞬间取样点在主频谱分量频域的分布的强度,经变换的信号送到心理声学模型控制单元。根据听觉心理声学测量统计结果,可以归纳出一个心理声学控制对照表格,并按照此表格制成控制单元,而单元电路可以集中地反映出人耳的阈值特性和掩蔽特性。

经过量化的32 个子频带数据已经被压缩,还要加上比例因子、位分配信息等辅助信息,共同加到1 位流格式化单元,编码成为两个层次的伴音编码信号。它既含有32 个子频带的伴音数码,又带有这些数码所对应的位分配数据和不同频带数据的强弱比例因子。待将来数据解码时,可根据各子频带的数据恢复声音信号,以及压缩时码位分配和强弱比例情况,在进行反量化时,参照压缩时的程序进行还原。

可见,伴音的压缩编码和图像处理一样,也要经过变换、量化、码位压缩等处理过程,它运用了许多数学模型和心理听觉测量的统计数据,对32 个子频带和各个层次信号的处理也各有不相同的取样速率。实际的心理听觉模型和适时处理控制过程十分复杂。这些算法细节都已按硬件方式被固化在解码芯片中,这些内容不能再改变。

3、伴音与图像的同步

图像和声音信号的压缩方法有许多不同,图像数据量又远远大于声音数据量,两者传送的数据码率大不相同。每传送14~15 个视频数据包才传送1 个音频数据包,而播放声音和图像的内容又必须作到良好同步,否则将无法保证视听统一的效果。

为了作到声图同步,MPEG-1 采用了独立的系统时钟(简称为STC) 作为编码的参照基准,并将图像和声音的数据分为许多播放单元。例如,将图像分为若干帧,将声音分为若干段落。在数据编码时,在每个播放单元前面加置一个展示时标(PTS),或者加置一个解码时标(DTS) 。当这些时标出现时,表示前一个播放单元已经结束,一个新的图像和声音播放单元立即开始。在播放相互对应的同一图像单元和声音单元时,可实现互相同步。

为了使整个系统在时钟在编码和重放时,声图有共同的时钟基准,又引入系统参考时钟SCR 的概念。系统参考时钟是一个实时时钟,其数值代表声图的实际播放时间,用它作为参照基准,以保证声图信号的传输时间保持一致。实时时钟SCR 必须与生活中的真实时间一致,要求它的准确度很高,否则可能发生声音和图像都播快或播慢的现象。为了使SCR 时间基准稳定、准确,MPEG-1 采用了系统时钟频率SCF ,以它作为定时信息的参照基础。SCF 系统时钟的频率是90KHz ,频率误差为90KHz±4.5KHz 。声图信号以SCF 为统一的基准,其它定时信号SCR 、PTS 、DTS 也是以它为基础。

2、MPEG-2 音频编码

MPEG-1 是处理双声道立体声信号,而MPEG-2 是处理5 声道(或7 声道)环绕立体声信号,它的重放效果更加逼真。

图2.3.3 是MPEG-2 音频编码方框图。它输入互相独立的5 声道音频信号,有前置左、右主声道(L 、R) ,前置中央声道(C) ,还有后置左、右环绕声道(LS 、RS) 。各声源经过模-数转化后,首先进入子带滤波器,每一声道都要分割为32 个子频带,各子带的带宽均为750Hz 。为了兼容MPEG-1 、普通双声道立体声和环绕模拟立体声等编码方式,原来按MPEG-1 编码的立体声道能够扩展为多声道,应当包括所有5 声道的信息,为此设置了矩阵变换电路。该电路可生成兼容的传统立体声信号LO 、RO ,还有经过“加重”的左、中、右、左环绕、右环绕声音信号(共5 路)。对5 路环绕立体声信号进行“加重”处理的原因:当计算兼容的立体声信号(LO 、RO) 时,为了防止过载,已在编码前对所有信号进行了衰减,经加重处理可以去失真;另外,矩阵转变中也包含了衰减因子和类似相移的处理。



   编码器原始信号是5 路,输入通道是5 个,经过矩阵转化处理后产生了7 种声音信号。应当设置通道选择电路,它能够根据需要,对7 路信号进行合理的选择处理。该处理过程决定于解矩阵的过程,以及传输通道的分配信息;合理的通道选择,有利于减弱人为噪声加工而引起的噪声干扰。此外,还设置了多声道预测计算电路,用于减少各通道间冗余度。在进行多声道预测时,在传输通道内的兼容信号LO 、RO ,可由MPEG-1 数据计算出来。根据人耳生理声学基础,后级设置了动态串话电路,可在给定比特的情况下提高声音质量,或在要求声音质量的前提下降低比特率。但设置该电路增加了MPEG-2 解码器的复杂程度。

经过编码器产生了多种信息,主要有编码取样值,比例因子,比特分配数据,动态串话模式,多声道预测信息,通道预测选择信号等,诸信息传递给复接成帧模块电路,最后以MPEG-2 比特流形式输出压缩编码信号。

MPEG-2 解码器基本上是编码器的逆过程,其电路结构简单一些,运算量小一些。解码器的解码转换矩阵可输出5 路信号,再经过32 分频子带滤波器处理,可输出LS 、L、C、R、RS 信号;另外,经过量化、SCF 和子带滤波器处理后,还可以取得前置立体声LO 、RO ,共计可输出7 路音频信号。

2、MPEG-4 音频解码

MPEG-4 音频编码和MPEG-4 视频编码一样,具有许多特点和功能,例如可分级性,有限时间音频流,音频变化/时间尺度变化,可编辑性,延迟性等。它具优越的交互性能和高压缩比。它不仅利用分级方法可对语言和音乐进行编辑,也能解决合成语言和音乐问题,它将成为多媒体世界的一个主要格式,将成为“全能”的系统。

通过MPEG-4 音频编码,可以存储、传送多种音频内容。它具有高质量的音频信号(单声道、立体声和多通道)。它采用低码率编码,而声音重放质量很高。它可以传送宽带语言信号(例如7KHz 宽的语音),也可传送窄带宽语言信号(例如长途电话)。可以传输、制作可理解的各种语音信号。可以合成语言,例如进行音素或其它记号为基础的文本转换;也可以合成音频,例如支持音乐描述语言。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

2万

积分

4

听众

469

音贝

音频应用初级会员

Rank: 6Rank: 6

积分
28059
 楼主| 发表于 2010-4-6 |

3.AC-3 的编解码技术

AC-3 是在AC-1 和AC-2 基础上发展起来的多通道编码技术,保留了原AC-2 中如窗函数处理、指数变换编码、自适应比特分配等许多特点,还新增了运用立体声多声道的编码技术策略的coupling 和rematrix 算法。一般而言,立体声的左声道和右声道的信号在听觉上十分相似,存在着许多重复的冗余信息,将这两个声道的信号联合起来加以编码,便可除去冗余的信号且不会影响原来的音质。这里AC-3 阵低码率的又一个有效的手法。



图2 为AC-3 编码器原理框图。AC-3 输入PC 声音数据,输出压缩后的数码流。编码的第一步是,运用TDAC(Time Domain Aliasing Cancellation )滤波器把时域内的PC 取样数据变换成频域内成块的一系列变换系数,每个变换系数以二进制指数形式表示,即由一个指数和一个尾数构成。指数部分经编码后构成了整个信号大致的频谱,又被称为频谱包络。用频谱包括和遮蔽由线的相关性决定每个尾数的比特分配。由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术,因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配;在对尾数的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数生器的可在不同的平台上获得相同的结果。最后由六个块的频谱包络、粗量化的尾数及相应的参数组成AC-3 数据帧格式,连续的帧汇成数码流输出。

由时域变换到频域的块长度的选择是指数变换编码的基础。在AC-3 中定义了两种长度切换,一种是512 个样值点的长块,一种是256 个样值点的短块。在信号频谱分析时,对要处理的声道信号块区截取得越长越好,这样可以得到较好的频率分辨力,同时也能得到较高的编码效率。但是较长的数据块可能包含了一些不同一些可能被识别的噪音,如pre-echo 。也就是说人耳因时间和频率上存在的遮蔽效应在进行指数变换编码时是有矛质的,不能同时兼顾,必须统筹处理。对于稳态信号,其频率随时间变换缓慢,为提高编码效率,要求滤波器组有好的频率分辨力,即要求一个长区块;而对于快速变化的信号,则要求好的时间分辨力,即要求一个短区块。在编码器中,输入信号在经过3Hz 高通滤波器去除直流成分后,再经过一个8kHz 的高通滤波器取出高频成分,用其能量与预先设定的阈值相比较,以检测信号的瞬变情况。

AC-3 采用基于改良离散余弦变换(MDCT )的自适应变换编码(ATC )算法。虽然在AC-3 标准中定义了MDCT 变换,但是实际采用一个N/4 点的IFFT (快速傅立叶变换),再加上两个简单的Pre-IFFT 和Post-IFFT 作为调整,以实现一个N 点的IMDCT 变换。ATC 算法的一个重要考虑是基于听觉遮蔽效应的临界频带理论,即在临界频带内一个声音对另一个声音信号的遮蔽效应最明显。因此,划分频带的滤波器组要有足够迅速的频率响应,以此保证临界频带外的噪声衰减足够大,使时域和频率内的噪声限定在遮蔽阈值以下。

在AC-3 编码器的比特分配技术中,采用了应用广泛的前向和后向自适应比特分配法则。前向自适应方法是编码器计算比特分配,并把比特分配信息明确地编入数据比特流中,其特点是在前端编码过程中使用听觉模型,因此修改模型对接收侧解码过程没有影响;其缺点是降低编码效率,因为要传送比特分配信息而占用了一部分有效比特。后向自适应方法没有得到编码器明确的比特分配信息,而是从数码流中产生比特分配信息,优点是不占用有效比特,因此有更高的传输效率。其缺点是要从接收的数据中计算比特分配,如果计算太复杂会使解码器的成本升高。此外,解码器的算法也会随着编码器听觉模型的改变而改变。AC-3 采用混合前向/后向自适应比特分配,在提高码率和降低成本间取得了平衡。



图3 为AC-3 解码器的原理框图。AC-3 解码器的解码原理基本上是编码的逆向过程,首先解码器必须与编码数据流同步,然后从经过数据纠错校验的数码流中分离出控制数据、系统配置参数、编码后的频谱包络及量化后的尾数等内容,根据声音的频谱包络产生比特分配信息,对尾数部分进行反量化,恢复变换系数的指数和尾数,再经过合成滤波器组,把数据由频域变换到时域,最后输出重建的PCM 样值信号。

通过对AC-3 的了解,可以看到AC-3 技术充分利用人耳的感官模型,针对不同性质的信号,采取了相应有效的算法,达到了在保证较高音质的前提下实现较高码率的预期目的,是一种非常高效而又经济的数字音频压缩系统。AC-3 是美国数字电视系统的强制标准,是欧洲数字电视系统的推荐标准,同时,AC-3 还是DVD 系统的强制标准。目前我国正在发展和推广数字电视系统,所有有理由相信AC-3 技术会有一个不错的应用前景。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

3万

积分

5

听众

1579

音贝

音频应用初级会员

Rank: 6Rank: 6

积分
39395
发表于 2010-4-6 |
欣赏支持
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

1686

积分

4

听众

56

音贝

音频应用新手发布

Rank: 3

积分
1686
发表于 2010-4-7 |
欣赏了 支持
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

7554

积分

4

听众

-1491

音贝

音频应用注册会员

Rank: 4Rank: 4

积分
7554
发表于 2010-4-12 |
支持并问好
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频招标|音频应用 (鄂ICP备16002437号)

Powered by Audio app

快速回复 返回顶部 返回列表