|
相干声学编码---DTS5 j" E& _; f! ^0 M2 o
DTS系统中采用的数字音频压缩算法——相干声学编码,主要目的就是用于提高民用音频重放设备重放的音频质量的,其音频重放质量可以超越原有的如CD唱片的质量。同时通过更多扬声器的使用,使得听众可以感受到普通立体声无法达到的声音效果。因此总体目标就是将听众真正的带入专业的音响领域及多声道环绕声的天地。# j; L. p; b3 S8 W( r3 Z& T
b# B" ]. x1 {* p1 g& C& {9 T; A
相干声学编码器是一种感知、优化、差分子带音频编码器,它使用了多种技术对音频数据进行压缩。下面将分别对其进行详细的描述。从整体来看,编码器与解码器的实现是不对称的。理论上编码器可以设计的非常复杂,但实际上,编码器发展成为包括两种音频分析的模式。解码器与编码器相比则简单的多,因为解码算法是根据编码数据流中的参数来控制的,解码器不需要做任何的计算来决定重放的音频质量。
6 F7 q0 @& o, C/ Y& Q. B' j. B5 ?2 a+ _2 u; C) i3 o
1. 编码过程
2 E) u& @! e# Q
8 B* ^# U5 n4 h; n0 M编码过程中的第一步是通过一个多相滤波器组将每个声道的全频带24比特线性PCM源信号进行分割到一定数目的子带中去。这种滤波方式提供了一种框架,既可以消除频谱滚降较快的音频信号分量,同时又去除了感知上的冗余度。多相滤波器只要通过低复杂度的计算就可以实现更好的线性、更高的理论编码增益和更理想的阻带衰减。每一个子带信号都包含了相应的、严格限制带宽的线性PCM音频数据。子带的个数及相应的带宽是由源信号的带宽来决定的,一般情况下分为32个独立的子带。 8 k4 A9 J0 F0 A M
2 S0 l7 p9 K4 b8 Z) h& K) Q
3 E. S' W1 H$ T) D. P9 `$ s
8 x# u9 B$ O A* U. q6 V
图1 相干声学编码器流程图. i, J3 }/ W8 p2 ?% p3 J
- I+ n" x2 |, y1 P1 f5 M0 ?
在每个子带中进行差分编码(子带ADPCM),这一步可以去除信号中的客观冗余量,如周期很短的信号。通过对信号的对比分析、心理声学及信号瞬态的分析可以判断信号中的感知冗余信息。通过子带范围比特率的选择和上述分析的结果,来调整对每个信号的差分编码程序的执行。差分编码与心理声学模型(如噪声掩蔽门限)的结合可以得到较高的编码效率,甚至可以在不影响主观听觉的基础上进一步降低比特率。
8 Q$ j; d3 H( i6 u$ l1 r( p0 F4 r* N( m: Y; p' V
如果使用较高的比特率,那么对于心理声学模型的依赖性则相对较弱,但可以肯定随着比特率的增加,编码信号的保真度也会提高。比特指派程序管理着所有音频声道中子带信息的编码指派和分配。在时间和频率上的自适应可以优化音频质量。作为音频编码系统设计的基础,比特指派程序通过对音频信号比特的分配和使用的比特率来决定音频质量。通过在编码策略中独立的执行这些程序使得运算的复杂程度大大提高,但是这样做却可以使得解
; \' K, b' V& C' u4 _2 r码器相对的简单。相反,随着比特率的增加,比特指派程序的灵活性也将大大降低,但是可以确保音频质量的透明性。/ o, e) x$ a1 w J5 x c
1 n2 E' f1 I- f. ]# Y3 u 编码过程中最后一步就是将来自每个子带ADPCM处理后的音频数据进行数据复用(或称打包)。数据复用器将所有声道中子带数据加上附加的辅助信息进行打包,形成特殊数据语法格式的编码数据流。在数据流中加入的同步信息将用于解码器对编码数据流的同步。 5 I% h) L) h ]" V( j- P4 c+ t6 r1 s
+ P# \1 U" B1 Q2 F 2. 对编码数据流同步以后,首先就是对编码数据流进行解包,如果必要的话还将对编码数据流进行检错及误码校正,然后将解包的音频数据送到相应声道的子带中去。
9 b; |& _; z9 W; m ) ]% E0 r! A l+ h# W
* L8 l3 H* Y# ^6 [& ^5 n i
$ e P6 G8 p/ F: [- s6 E/ M7 g9 x/ {+ @! I
# Y8 C- s m" ?. c4 i h
图2 相干声学解码器流程图
$ n( l& b3 u8 p8 o+ u, e! b" l3 M. [! H& I# l
第二步是通过在每个子带中传输的辅助信息指令,对子带中的差分信号进行反量化得到子带PCM信号。这些通过反量化得到的子带PCM信号再进行反滤波处理,得到每个声道的全频带的时域PCM信号。在解码器中,没有程序用于音频质量的调整.在解码器中包括一个可选的DSP功能模块,这个模块主要用于用户的编程使用。它允许对单个声道或全部声道中子带或是全频带PCM信号进行处理。这些功能诸如上矩阵变换、下矩阵变换、动态范围控制以及声道之间的延时调整等。
( `# N/ J+ b' Y
( S7 K! l3 f& f1 p [; x6 O 3.. `; k8 W0 G( g2 i- [" S
1 M; j+ S0 {- S. t( x) `. P DTS系统最早是用于电影应用中的。在1993年的电影“Jurassic Park”(侏罗纪公园)中,没有使用AC-3,而是使用了DTS多声道数字音频系统。DTS系统中的音频数据是存储在一张CD-ROM上的,取代了将声音记录在胶片上的方式,而是在胶片上记录用于同步CD-ROM音频信息的时间码,通过电影胶片上的时间码来同步播放CD-ROM。由于CD-ROM与电影胶片磁迹相比,具有更大的容量和更稳定的可靠程度,因此它可以在4:1压缩比的情况下提供质量更高的多声道音频信息。对于AC-3来说,典型的压缩比为12:1。随着应 ( K8 d5 q7 \$ U) P
用的普及,DTS系统又提出一种低数据率版本,其参数规范如下: M* M! H! _6 d$ m' g7 [* w0 P3 I
, y7 P m& h: t 音频声道的个数DTS=1——10.1
* `$ |8 f1 k7 |
& b7 a$ y7 @! k9 q# h FsDTS=8——192kHz. [$ K( }0 X7 }! \3 w/ x
; a/ n5 \4 z. T
RDTS=16——24bit5 ]! J3 c' S u
! k- v/ }# g$ A$ z7 _$ R2 [9 [
BDTS=32——6144kb/s
" l& A9 R9 k+ j$ Z5 R) ^
4 F7 W- Q# {% @; F 数据帧大小DTS=512样本
: N+ z. l; x/ s$ U1 i# O" }0 }! f$ \3 e7 o- X D( m2 K q
在低数据率版本中,由0到24kHz的32个子带的频率,通过一个512抽头的多相正交镜象滤波器(PQMF)来实现从时域到频域的映射。另外8个附加的子带覆盖了24kHz到48kHz之间频率范围,2个附加的子带覆盖了48 kHz到96 kHz之间的频率范围。为了进一步减小冗余度,采用了前向自适应线性预测,同时心理声学模型用来对信号进行预测,在量化过程中使用了标度量化和矢量量化。2 W& w- |0 ^3 z6 m
) H h9 U2 W0 ^6 @
DTS的大多数应用都是采用相对较小的压缩比、工作在几乎无损情况的模式下的。一般来说,数据率在1Mb/s的情况下,DTS可以提供较好质量的音频。DTS的应用也主要是在电影、CD及DVD视频中。另外,DTS所具有的可变比特率编码方式使得它同样可以应用于DAB及DVD的广播中。# f* Z( j$ I' V+ A
8 l, u, q1 y2 ]: O
|
|