音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 11468|回复: 7
收起左侧

[音频] 音频编码功能

[复制链接]

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
发表于 2005-9-12 05:34:00 | 显示全部楼层 |阅读模式
音频编码0 r7 {7 L6 w8 E$ w! k: w9 `
编码
7 U+ O) Z& e& T    即压缩编码,其原理是压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信号,包括人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号。& @8 @4 f% ^7 ]& o9 n

/ M/ ^. _) H! N3 A9 c  P
9 l! R7 j+ Q" W: Q4 `0 ~
3 i  z2 s' `3 e: a2 U    模拟音频信号转换为数字信号需要经过采样和量化,
  o; f' b8 P5 s, g. i2 l
8 Z* w- f/ A" ^! \0 s/ e. o    量化的过程被称之为编码,根据不同的量化策略,产生了许多不同的编码方式,
* f  }: z. Z% j, L+ I. q. G" A/ V' Z. n
    常见的编码方式有:PCM 和ADPCM,这些数据代表着无损的原始数字音频信号,添加一些文件头信息,就可以存储为WAV文件了,它是一种由微软和IBM联合开发的用于音频数字存储的标准,可以很容易地被解析和播放。
3 {7 Q0 I% }* h& B  |. t, i& F- Y" ?0 u" n- D0 W

6 H5 R9 |7 Z" _+ K6 V+ K& R# _! U3 Y
几个概念! G& }* {% O* E8 a- S3 V6 Y% N
在进一步了解音频处理和压缩之前需要明确如下几个概念:
, J# w: y, ^( }+ {  P- V
2 O$ u) Y- P9 k' H( N; c/ m7 d) u# C4 x0 }; ~3 ?( E# x6 s$ X

% d' s# _. w7 s0 `6 i1)音调:泛指声音的频率信息,人耳的主观感受为声音的低沉(低音)或者尖锐(高音)。
" z& ~; u9 ~$ Y! w; Q9 E, a. g6 M9 i) H4 ~, I! ]
2)响度:声音的强弱。( l& ]( m- q/ N6 H: T  q
6 {7 m6 L! v+ A' V: |/ x  _, h( I4 I
3)采样率:声音信息在由模拟信号转化为数字信号过程中的精确程度,采样率越高,声音信息保留的越多。( S. d* l, y7 l/ B0 ~! U9 e! Q

- E) ^( V2 I& S5 O# P$ F4)采样精度:声音信息在由模拟信号转化为数字信号过程中,表示每一个采样点所需要的字节数,一般为16bit(双字节)表示一个采样点。4 A5 ]) G+ [! `2 p

$ W2 I+ u  F1 [* p* l( I" k2 `5)声道数:相关的几路声音数量,常见的如单声道、双声道、5.1声道。8 S9 m- t3 _$ U) T8 b( s
' d' b- m' r8 r; X) Y8 x& A
6)音频帧长:音频处理或者压缩所操作的一段音频信息,常见的是10ms,20ms,30ms。
% \" }  M% n" o
& v. f$ v' @0 L/ L- b, W
我是新手,请各位老师多多指教。。。

3656

积分

2

听众

-581

音贝

音频应用新手发布

Rank: 3

积分
3656
发表于 2005-9-12 05:37:00 | 显示全部楼层
音频编码功能
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:37:00 | 显示全部楼层
音频编码基本手段
, \+ Q' \* x; j* E# V" i( i编码基本手段(1):量化和量化器" L* Z( }3 W- \. Y+ M
基本概念:2 X) y9 j3 \, y5 D4 Z7 ?

( p* U& y* W! B量化和量化器:量化是把离散时间上的连续信号,转化成离散时间上的离散信号。
* g; x$ C  }/ `/ N1 W8 k5 t: k7 K, r+ a. ~" t, {. t
常见的量化器有:均匀量化器,对数量化器,非均匀量化器。
% q6 B4 \! h) P6 X  u* s0 k2 E& U5 K4 |$ X% ?
量化过程追求的目标是:最小化量化误差,并尽量减低量化器的复杂度(这2者本身就是一个矛盾)。
6 U2 r) Z0 k$ n1 F4 G4 U. n1 f% N) _) V9 z
4 C# ?7 ~2 l# |3 g
0 C9 h8 }: Z  `* r+ ~

" d3 ~* I! U- x" e) G
  `4 l' W& p/ @; h  s常见的量化器的优缺点:
6 t; K% m+ g) w7 w. K. |" ^+ p% i4 J. |0 Z5 L
(a)均匀量化器:最简单,性能最差,仅适应于电话语音。" i5 _8 C  @2 ]% u' Z
. }% y& v7 z/ F4 Q
(b)对数量化器:比均匀量化器复杂,也容易实现,性能比均匀量化器好。
, x# v6 ?% X4 ~0 M$ r/ a+ Q" Z7 U- u& `! S5 C* |
(c)非均匀(Non-uniform)量化器:根据信号的分布情况,来设计量化器。信号密集的地方进行细致的量化,稀疏的地方进行粗略量化。
: t+ F0 X  D: K% _8 Y  y5 D4 \
! i& J+ ~5 o% c; Z$ H- F! \9 M8 Q+ |7 e) I6 U6 w0 Z3 m

0 i( m; j3 x  y6 j3 D+ N+ J# q; v. p! n

/ Z0 ^1 c$ w2 a3 k7 \编码基本手段(2):语音编码器+ f  T; i9 L: N( P/ z, N7 Z/ d5 b
1基本概念
$ n* o' T% k& b1 y+ i% a
' m6 ?0 P1 S& I4 |6 @! q( F: i; z& t* w' G$ ]7 P; k5 i9 A
语音编码器分为三种类形:(a)波形编器 、(b)声码器 、(c)混合编码器 。
# y; h+ v4 W' T( I0 w0 P5 P4 |& O) }9 I
' b9 c6 \5 A7 {, s6 _
& v: m- h# R! d* D: @3 Y( O
波形编码器以构造出背景噪单在内的模拟波形为目标。作用于所有输入信号,因此会产生高质量的样值并且耗费较高的比特率。 而声码器 (vocoder)不会再生原始波形。这组编码器 会提取一组参数 ,这组参数被送到接收端,用来导出语音产生模形。声码器语音质量不够好。混合编码器,它融入了波形编码器和声器的长处。
) n- H$ I0 ^" N! W5 i7 r" ?  B) J* A8 ^' t& S! G% n. w. H4 i% o3 P5 x
( C+ _' ?5 Q/ W0 S/ \0 E8 |
3 H" f9 u9 [5 v: y0 }
2波形编码器
% k$ @# j3 U% J2 i' R" C波形编码器的设计常独立于信号,所以适应于各种信号的编码而不限于语音。- o$ o+ l# C: @7 _+ I' }# f
  o6 ^2 @, I2 ]) ]( V8 ]: V
- N  R, Y; `( m% W, e) Y

, ]6 i9 w/ \- w5 y( A( q时域编码:
+ @+ {" Z/ h; sa)PCM:pulse code modulation,是最简单的编码方式。仅仅是对信号的离散和量化,常采用对数量化。6 Z4 j1 p0 Q* K! u# u. l9 \

8 ~" S* N4 @7 p, K7 Nb)DPCM:differential pulse code modulation,差分脉冲编码,只对样本之间的差异进行编码。前一个或多个样本用来预测当前样本值。用来做预测的样本越多,预测值越精确。真实值和预测值之间的差值叫残差,是编码的对象。, M7 c2 k3 X- s) B" v% O: P2 |7 q
/ s. J7 A; ~7 Q% I- y  F! F& G
image.png$ {( V& t1 K4 Y+ B7 s* [" X
5 x9 r, C: t! z# H  a- x
c)ADPCM:adaptive differential pulse code modulation,自适应差分脉冲编码。即在DPCM的基础上,根据信号的变化,适当调整量化器和预测器,使预测值更接近真实信号,残差更小,压缩效率更高。; b0 h. l& V, f! Q' p# l

& |. E4 w* f9 g4 n
8 b1 ^% C# G1 A/ k$ T) ~4 R/ ^
5 q5 _8 i4 }- _, m' n8 ~0 u频域编码:. O. o# \2 B4 ~# B: u8 d
          频域编码是把信号分解成一系列不同频率的元素,并进行独立编码。
* e) @/ O1 I& E" F$ s6 c, ^( d$ ]
. {8 u9 F) L8 D4 Da)sub-band coding:子带编码是最简单的频域编码技术。. N: E0 }# ~, t! f1 O; N+ [

, X; s& g6 E; k9 L& r是将原始信号由时间域转变为频率域,然后将其分割为若干个子频带,并对其分别进行数字编码的技术。
5 ~7 r- F* e' ~6 L6 T  C, {( _0 c
它是利用带通滤波器(BPF)组把原始信号分割为若干(例如m个)子频带(简称子带)。将各子带通过等效于单边带调幅的调制特性,将各子带搬移到零频率附近,分别经过BPF(共m个)之后,再以规定的速率(奈奎斯特速率)对各子带输出信号进行取样,并对取样数值进行通常的数字编码,其设置m路数字编码器。将各路数字编码信号送到多路复用器,最后输出子带编码数据流。对不同的子带可以根据人耳感知模型,采用不同量化方式以及对子带分配不同的比特数。( E9 w. ]) ]- ~% z6 C1 L7 V
& s# t- Y4 }! s7 F3 A8 N
b)transform coding:DCT编码。2 y* f9 o0 `) ?7 W' ~0 h1 Q
9 W3 R* o2 M/ Z6 r- D
" m7 Q* I4 Y1 g5 T  ?% W, n5 f

8 }' h" }/ O' ]% W3声码器9 M2 f( C# l; D) N% c1 Y' ^
channel vocoder: 利用人耳对相位的不敏感。' R. ?. l+ Z/ n; f

* D7 {) \- K! }$ v1 whomomorphic vocoder:能有效地处理合成信号。
4 _* T, B. w, u- u9 [$ s! E
2 j1 w5 P. P: _5 s& F9 q  S6 Qformant vocoder: 以用语音信号的绝大部分信息都位于共振峰的位置与带宽上。
6 k: ^2 V* ^& a1 b5 J+ s' y: Y3 i$ x/ [
linear predictive vocoder:最常用的声码器。
8 _0 [4 B: U, z% P8 C8 ]9 W, e
( b7 r5 [6 Q+ a+ J
2 q3 K7 k# Q, }4 V( M- a- W( u! z2 p- Y. G( a
4混合编码器
9 F" s/ O* e/ u1 Y0 c% ~    波形编码器试图保留被编码信号的波形,能以中等比特率(32kbps)提供高品质语音,但无法应用在低比特率场合。声码器试图产生在听觉上与被编码信号相似的信号,能以低比特率提供可以理解的语音,但是所形成的语音听起来不自然。& ^: {" s9 W  q: y4 y

+ J# a( u7 P  L
9 Z' n- Q# z; L3 H! T- p3 E8 _# s
! v7 s  k) }9 k& N7 r/ Z混合编码器结合了2者的优点:: e( F# T# u  S, A2 i

8 e! |1 [/ ]+ Q+ S) t# ^/ L: E; n: o4 D: T! C. ^0 Q& }

  M# j8 l% |+ {( {4 r' ]6 r; `RELP: 在线性预测的基础上,对残差进行编码。
5 @6 F; d( C0 R! L
. I3 b: A( _" k; v. {        机制为:只传输小部分残差,在接受端重构全部残差(把基带的残差进行拷贝)。
: g: i2 R. d5 g2 n, [$ S
- F/ I  D; k% @3 N. q" K( G- ]2 y5 oMPC: multi-pulse coding,对残差去除相关性,. o3 W) R% h* G, y

' e: [! Z9 @& a. [" S7 ]        用于弥补声码器将声音简单分为voiced和unvoiced,而没有中间状态的缺陷。! P1 A  {; c, q3 v3 T

. G* O+ [! O* S' e/ pCELP: codebook excited linear prediction,
3 q0 V. r5 S' j  @, Z$ w5 \3 f) {. f# `7 H- o2 s1 z# h! k
        用声道预测其和基音预测器的级联,更好逼近原始信号。
( P( w3 V* @3 F7 V. N/ N7 p
: v' C! n, W$ `" N! WMBE: multiband excitation,% a5 |* Q: [! C, l, ^
( |& D( y: `  x! i
        多带激励,目的是避免CELP的大量运算,获得比声码器更高的质量。
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:45:00 | 显示全部楼层
常见的音频压缩格式
3 O" I7 H' e4 M2 h! w: L1.WAV编码:1 Q1 {6 Y2 |# Y' n, u; J

' D1 c) [# ^5 o1 P2 A( B9 sWAV编码是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。特点:音质非常好、大量软件都支持。使用场景:多媒体开发的中间文件、保存音乐和音效素材等。
. F, b; ?/ a' V7 f) m
  z- }+ J" B! A( Q! w, p4 Dimage.png
1 C9 P) R. r# ~% d- h- {& l1 S. g8 S* o% g
8 E; x: x5 q: y; k, ]

7 H( W. N/ z/ A* [' Q" ~7 E2.MP3编码:
4 d) K- y& j3 D% G. |0 U- p/ J6 t( d+ J
    MP3具有不错的压缩比,使用LAME编码的中高码率的MP3文件,听感上非常接近源WAV文件。特点:音质在128Kbps以上表现还不错,压缩比比较高,兼容性好。使用场景:高比特率下对兼容性有要求的音乐欣赏。) t4 C; m. T' W; I0 Q

+ t4 Z2 q% \8 }3 R9 h( s8 e& |: w9 Z  C( d$ F5 b
" m2 n! P( V& v5 Z: }
3.AAC编码:
5 t* \( M2 V. _# G$ W* m
% s, H* w) t  c/ v$ L) n3 N    AAC是新一代的音频有损压缩技术,它通过一些附加编码技术(如PS、SBR等),衍生出LC-AAC、HE-AAC、HE-AAC V2三中主要编码格式。特点:在小于128kbps码率下表现优异,且多用于视频中的音频编码。适用场景:128Kbps 码率下的音频编码,多用于视频中的音频轨的编码。
# X  |. a/ e/ X* I- s8 F8 _2 Z* ]* `: ]0 t! I6 o+ h# ?9 l
- w% L- T/ I0 D* t1 `* U/ Q

3 }, K8 o; L- [: E; j0 e9 |4.Ogg编码:) [, X$ `! u1 a* E9 [
( Z  `; w8 a/ ]
    Ogg编码音质好、完全免费。可以用更小的码率达到更好的音质,128Kbps的Ogg比192Kbps甚至更高的MP3还要出色。但是目前媒体软件支持上还是不够友好。特点:高中低码率下都有良好的表现,兼容性不够好,流媒体特性不支持。使用场景:语音聊天的音频消息场景。7 G  }0 T* m# D- \! P

: m1 `" L$ P' D9 f$ p$ q! |% N- v2 P1 W' _/ b, I; o

9 u; X3 R+ s1 U( V5.FLAC编码:
$ M' q$ p3 X# L2 ^) \; m% P2 i# o* m! L' ~- R7 Y
    FLAC中文可解释为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频信息,所以可以还原音乐光盘音质 。2012年以来它已被很多软件及硬件音频产品(如CD等)所支持。特点:无损压缩、压缩率高于普通文件夹压缩格式(ZIP、rar等)。使用场景:高品质音乐等。; X$ r; b6 z5 `1 B' ?7 x
# V0 t# Z: {( E
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:47:00 | 显示全部楼层
音频压缩
/ f$ q: s/ F+ |3 j7 @* U3 R本质:消除冗余数据+ w2 W& S6 e4 j& }7 ?1 ]9 ~8 B

, w3 j. @% W! j5 c" ]: K8 E0 L
7 U5 C/ A' C1 a5 Q4 F) w& v+ q3 s8 y
第一:频谱掩蔽效应:
% I& w' @) B7 B2 M- F6 Q7 L5 B' H0 `4 P) p& i
    人耳所能察觉的声音信号的频率范围为20Hz~20KHz,在这个频率范围以外的音频信号属于冗余信号。
! M! S$ l' i$ P; c" v! L* r# ]' s/ k
    人耳听觉范围外的音频信号: 20Hz~20KHz
: A7 l! n" l6 }
# ]/ o( J+ w7 v/ [8 ^9 G; N1 b! f" ~8 ]/ t# g% T6 P+ Y: Y
去除人耳听觉频率范围临界附近的值+ U  E% g7 N; L' U8 z* m7 b. I
' w) P! ?; x' a' c
大声音附近如果有小的声音可以去除
2 u( w, u. V3 Q
# Y3 Q) V; \$ U1 x& ]时域屏蔽效应; Y: Y% @7 r+ r; h& G- X3 Q- R

& V1 q6 ?* I5 b- ]5 |" j0 o高声附近50ms内如果声音比较小可以去掉) B8 O/ {# d# |: m
7 `4 o+ U% {# k% o6 A
无损压缩
7 L. A* n9 y9 o  b; G: ~3 U5 q3 n1 t/ ?6 Y, a; u/ Q
* y1 W4 w! L( w" }3 {  r. m$ N3 ~

  T7 P1 |$ G9 y3 B2 S5 k3 u3 ]! h
; m+ C( A4 R8 D( \  o' e. @( i第二:时域掩蔽效应: 1 Z, W, w$ |4 L

! \9 {4 b! V& b8 I. d7 _, X$ ?    当强音信号和弱音信号同时出现时,弱信号会听不到,因此,弱音信号也属于冗余信号。
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:48:00 | 显示全部楼层
常见的音频编码器
OPUS、AAC、Vorbis、Speex、iLBC、AMR、G.711等
  • OPUS:
    目前性能最好、质量最高,但是由于时间短,暂时还没有普及,rtmp协议还不支持它。
  • AAC:
    1 o2 o& s1 p9 D, g2 z1 q+ Q; Y. r
     有损压缩算法,目的取缔mp3,压缩率很高、但还能接近原始的质量;
  • MPEG-4标准出现后,加入了SBR技术和PS技术,目前常用规格有AAC LC、AAC HE V1、AAC HE V2;
  • AAC LV:低复杂度,码流128k
  • AAC HE V1:AAC+SBR 分频编码,低频(减少采样率)和高频(增加采样率)分开编码
  • AAC HE V2:AAC+SBR+PS 由于声道间相同的性质很大,所以对于其它声道只要存储一些差异性的特征
  • AAC格式:
    2 r/ T9 C' c/ `& V" _2 U6 l
    ADIF-只能从头开始解码,常用于磁盘文件中;
    ADTS 每帧都有一个头信息,可以在音频流的任何位置解码,但是占用比较大。
    AAC编码库:
        Libfdk_AAC > ffmpeg AAC > libfaac > libvo_aacenc
我是新手,请各位老师多多指教。。。

717

积分

1

听众

18

音贝

音频应用新手发布

Rank: 3

积分
717
发表于 2005-9-12 06:54:00 | 显示全部楼层
数字音频输出pcm和raw是什么意思
4 T! }8 b) X2 E( }: w8 n+ QPCM (Pulse Code Modulation) 是一种数字音频编码方式,它将音频信号进行采样和量化处理,将其转换为数字信号。PCM音频文件通常以WAV或AIFF格式存储。
0 p0 Y" I" b0 H& ]0 H7 m
+ t  U( _  G& J+ f' Y3 vRAW是一种音频格式,它没有进行任何压缩和编码处理,直接将音频信号存储为原始数据。RAW音频文件通常需要提供元数据,如采样率,量化位数等,才能进行解码播放。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-13 03:25:00 | 显示全部楼层
谢谢老师的指点。。。。。。。。。。。。。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

QQ|小黑屋|手机版|音频应用官网微博|音频应用 ( 鄂ICP备16002437号 )

GMT+8, 2025-6-7 09:54 , Processed in 0.043230 second(s), 6 queries , Redis On.

Powered by Audio app

快速回复 返回顶部 返回列表