音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 12496|回复: 7
收起左侧

[音频] 音频编码功能

[复制链接]

258

积分

2

听众

-10

音贝

音频应用

新手上路

Rank: 1

积分
258
发表于 2005-9-12 05:34:00 | 显示全部楼层 |阅读模式
音频编码
" Y8 r: f" S( G2 i- w- h编码' S: B: s0 ~) x: X% Q
    即压缩编码,其原理是压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信号,包括人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号。, ]- J. T& k% j, }# }3 c) D

9 C+ u( ]2 y4 M% e9 l* S2 |  Z* h- s- x: d4 v) [

% J. ?0 M. L7 l- b$ ]. r$ M2 a    模拟音频信号转换为数字信号需要经过采样和量化,
! E) |& j5 K. W( y/ K6 w7 n9 D9 L3 X! f. ^/ F6 R1 s/ p
    量化的过程被称之为编码,根据不同的量化策略,产生了许多不同的编码方式,
) M1 F: A( U' S$ u
  X6 Z$ K$ r; [5 U$ l+ Y5 W; P# P/ Y    常见的编码方式有:PCM 和ADPCM,这些数据代表着无损的原始数字音频信号,添加一些文件头信息,就可以存储为WAV文件了,它是一种由微软和IBM联合开发的用于音频数字存储的标准,可以很容易地被解析和播放。
( A5 l" _+ I2 B) ^3 N8 v9 g  c- a: U; q/ J. y4 c/ {8 N

7 J2 o% n/ t3 x
" |5 {* t# ?5 _5 m/ L几个概念5 E; F. Y9 _! @2 O
在进一步了解音频处理和压缩之前需要明确如下几个概念:& C- J% i& _" g0 V( q. B: ~

6 V- ^' J) p- M2 a
# o% j$ @  P& r/ u
6 ]4 p& ^2 p  e/ o+ G' I8 A1)音调:泛指声音的频率信息,人耳的主观感受为声音的低沉(低音)或者尖锐(高音)。
4 X( S4 D6 u% S# g( B- S, K0 e6 J7 B. n& \, h3 A7 f
2)响度:声音的强弱。
* v* r1 @; a0 q/ E
6 e% m5 O8 ]3 N# R* D" A+ Z3)采样率:声音信息在由模拟信号转化为数字信号过程中的精确程度,采样率越高,声音信息保留的越多。" ~/ V/ b+ F: j, G$ q6 O8 p' Z
3 Q6 E  U' Q" \. {4 h
4)采样精度:声音信息在由模拟信号转化为数字信号过程中,表示每一个采样点所需要的字节数,一般为16bit(双字节)表示一个采样点。! D; u* g# s% C1 L3 m
* S, w) s* ]6 U0 e1 A% }1 P5 s; R$ U
5)声道数:相关的几路声音数量,常见的如单声道、双声道、5.1声道。6 C' Z+ |# E8 F

1 P& Z( c' S/ _/ t1 p/ N6)音频帧长:音频处理或者压缩所操作的一段音频信息,常见的是10ms,20ms,30ms。
/ a( f- \6 T- {' W3 n* P
) y% E: z% U( G$ \2 S. U: E
我是新手,请各位老师多多指教。。。

3641

积分

2

听众

-584

音贝

音频应用新手发布

Rank: 3

积分
3641
发表于 2005-9-12 05:37:00 | 显示全部楼层
音频编码功能
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

258

积分

2

听众

-10

音贝

音频应用

新手上路

Rank: 1

积分
258
 楼主| 发表于 2005-9-12 05:37:00 | 显示全部楼层
音频编码基本手段; O8 O7 A+ l  U& A8 ?
编码基本手段(1):量化和量化器! G: ~% Q3 C% c6 `0 l1 {
基本概念:
  x/ c* d( L8 [/ t
+ v5 O8 |1 n. ]" F3 w2 u( }+ \量化和量化器:量化是把离散时间上的连续信号,转化成离散时间上的离散信号。- A6 z+ K1 ^" U9 S/ e/ W" z9 j

! ]. N( c; ?  u8 _3 i: X6 L  V常见的量化器有:均匀量化器,对数量化器,非均匀量化器。
$ k( k' f* [* m  x' L7 i/ O
- n" R$ h+ t: b4 {% c, `量化过程追求的目标是:最小化量化误差,并尽量减低量化器的复杂度(这2者本身就是一个矛盾)。4 W$ X, |$ }' ]% @1 a
% @3 P- K  q& G, T* j6 [
+ d, W! l% {, M3 y3 p, i
. [0 i4 s+ p5 r/ ]8 E
+ M+ w- E9 Q" q' n( d/ u* f
$ g8 E3 ]% ?: g7 N# U
常见的量化器的优缺点:+ k7 m" k# D# k2 |; k4 ~

. e6 a* G- t: _% ]* s(a)均匀量化器:最简单,性能最差,仅适应于电话语音。
+ B* ~1 B- p) g. ]6 m8 S% {* ^
(b)对数量化器:比均匀量化器复杂,也容易实现,性能比均匀量化器好。
- g- ?) @9 N/ u- M; Z
5 i% T( j, D; c' t& ](c)非均匀(Non-uniform)量化器:根据信号的分布情况,来设计量化器。信号密集的地方进行细致的量化,稀疏的地方进行粗略量化。
& c3 G3 ?5 ^! u! f7 U6 W1 x# q& s1 X+ L) [7 p5 `* d
/ X/ ]/ R! a# ^5 R

/ f9 b# c" Q* L+ a) S. W
5 F0 |8 n4 @1 P, U- }$ m% R( R- h9 X( S% Z7 a  Y7 X* L
编码基本手段(2):语音编码器
6 Q2 `4 F& h. l+ S: p2 V8 e1基本概念
7 Q# M+ e& U" h7 K6 K+ g; E1 I/ T% T  F, Q5 @: s. ?: \+ m) s  |
3 n! b, y) ~9 M0 m6 I2 R
语音编码器分为三种类形:(a)波形编器 、(b)声码器 、(c)混合编码器 。
" U2 J4 s; C& W. N) C9 |+ w  E$ l8 Q& a8 _) s- l* d( t
$ j% T9 d6 q7 S

) Y( U4 |7 @6 ~/ O% C- _# B( H波形编码器以构造出背景噪单在内的模拟波形为目标。作用于所有输入信号,因此会产生高质量的样值并且耗费较高的比特率。 而声码器 (vocoder)不会再生原始波形。这组编码器 会提取一组参数 ,这组参数被送到接收端,用来导出语音产生模形。声码器语音质量不够好。混合编码器,它融入了波形编码器和声器的长处。' p: g" F9 j9 z

4 ^0 N' {1 K7 K8 G  A$ t, t" G5 r( F
& S1 _. ~7 f- `& R' W2 A* t0 Q3 O3 x8 r) Y' x* O
2波形编码器/ f% ^- V6 }& ?
波形编码器的设计常独立于信号,所以适应于各种信号的编码而不限于语音。
8 t' s( c8 G% B2 O' Y- Q* L* E( Y. J' C! a7 ^- g. m, K. i/ a

5 _. y: [$ P2 z' v' w5 F! }9 t0 J( S: O; T$ x
时域编码:  M& w( `$ e- v2 i
a)PCM:pulse code modulation,是最简单的编码方式。仅仅是对信号的离散和量化,常采用对数量化。
/ @7 {: ~) J7 R0 m! x# H6 w( D- h7 G# J! F1 [/ p) ~
b)DPCM:differential pulse code modulation,差分脉冲编码,只对样本之间的差异进行编码。前一个或多个样本用来预测当前样本值。用来做预测的样本越多,预测值越精确。真实值和预测值之间的差值叫残差,是编码的对象。2 ]: ]: |+ e! q# t

0 h. |+ m. B" K' g" Gimage.png
" Q: p4 s9 ~9 d4 G2 Y. W
2 W  ^- J8 G$ B" x2 pc)ADPCM:adaptive differential pulse code modulation,自适应差分脉冲编码。即在DPCM的基础上,根据信号的变化,适当调整量化器和预测器,使预测值更接近真实信号,残差更小,压缩效率更高。
: }+ f3 U( E+ }% W. p. I6 }& `1 O% n" Q4 L7 n1 P- ]
: b9 x0 k: o% i# s) L
; {5 [7 E! N8 z! e% R2 B* z% Z
频域编码:" v+ Q+ b2 e0 s' W5 [" ^
          频域编码是把信号分解成一系列不同频率的元素,并进行独立编码。
3 H+ h7 H' ]4 q" s, a
. s. J1 g# G+ Ya)sub-band coding:子带编码是最简单的频域编码技术。8 S) q$ w3 y; _4 y+ g

* K0 G+ |) j* l/ ]" A8 w/ u是将原始信号由时间域转变为频率域,然后将其分割为若干个子频带,并对其分别进行数字编码的技术。8 s0 q. A, F0 [8 i) y2 L
3 x5 X, p  I) W( L9 R4 k
它是利用带通滤波器(BPF)组把原始信号分割为若干(例如m个)子频带(简称子带)。将各子带通过等效于单边带调幅的调制特性,将各子带搬移到零频率附近,分别经过BPF(共m个)之后,再以规定的速率(奈奎斯特速率)对各子带输出信号进行取样,并对取样数值进行通常的数字编码,其设置m路数字编码器。将各路数字编码信号送到多路复用器,最后输出子带编码数据流。对不同的子带可以根据人耳感知模型,采用不同量化方式以及对子带分配不同的比特数。
, m( T, Z, @7 B' h% Y' P, r; y3 _
+ _  [3 d) r! v5 \b)transform coding:DCT编码。
# F* o: F$ w$ [. I, w
; K* p2 {% g, q
: d- H8 x. z% v" k; A
) k' a1 Q% m' Q- U6 C7 u; Y3声码器
$ R7 ^/ J7 C8 R6 wchannel vocoder: 利用人耳对相位的不敏感。
4 D( K/ F7 p- \" n: K7 k5 c+ @5 n! G
homomorphic vocoder:能有效地处理合成信号。
/ f6 ^- _- H, @/ L/ e! @& r% L
$ B# \* t. ~5 d! Z# G9 oformant vocoder: 以用语音信号的绝大部分信息都位于共振峰的位置与带宽上。
6 L6 Y0 t9 E3 N8 I" z! H$ ]* j6 c" @0 `
linear predictive vocoder:最常用的声码器。
+ D$ M( r- \- ~- n6 [& ]: e* o$ L0 Q9 n. ?

# o) y& ]& K' w3 h: ^) A
6 R1 F, ^4 S# R4混合编码器
$ g' y/ W" Y8 K    波形编码器试图保留被编码信号的波形,能以中等比特率(32kbps)提供高品质语音,但无法应用在低比特率场合。声码器试图产生在听觉上与被编码信号相似的信号,能以低比特率提供可以理解的语音,但是所形成的语音听起来不自然。7 t5 W9 Q4 L  _2 V

: |4 o. D. x# z  w! S! T! c  b3 X* S' [. E
8 j' o' ]9 x: B% q
混合编码器结合了2者的优点:
: b& R. W$ F, A9 w+ \# P* @8 ^! A; |: D/ L# V
1 Z/ i+ s  z2 j" `  \

' _9 ]% ]& j" sRELP: 在线性预测的基础上,对残差进行编码。
5 X5 T+ n2 I6 h9 H( E: Q
( V2 J/ {/ @6 `/ z9 \. U        机制为:只传输小部分残差,在接受端重构全部残差(把基带的残差进行拷贝)。/ i! s* h( A! o. W0 c

; F4 L3 A) H  r! k0 JMPC: multi-pulse coding,对残差去除相关性,
+ _  x+ t* e/ Y. `9 K3 _+ I$ U' h
        用于弥补声码器将声音简单分为voiced和unvoiced,而没有中间状态的缺陷。2 ^9 a$ y9 j) U( n1 \( R
# f0 ?  `$ f0 ]9 X: |: D
CELP: codebook excited linear prediction,2 u/ X5 x# n4 T) c/ k  i: {

% G6 z8 m1 ^9 V( A" w4 G7 c! f        用声道预测其和基音预测器的级联,更好逼近原始信号。& b0 [, [# t/ [2 H0 W

. f9 \- @$ y9 k/ `! ^MBE: multiband excitation,
( y$ ?2 v8 z* Y- q  J5 O( X) v& [& Z( N2 E: x5 [4 F% @
        多带激励,目的是避免CELP的大量运算,获得比声码器更高的质量。
我是新手,请各位老师多多指教。。。

258

积分

2

听众

-10

音贝

音频应用

新手上路

Rank: 1

积分
258
 楼主| 发表于 2005-9-12 05:45:00 | 显示全部楼层
常见的音频压缩格式. ?4 n! d/ l+ _) s0 Q6 }
1.WAV编码:6 A* J+ J4 `, V5 Q3 C/ u
/ W$ i0 p+ a3 ]7 `" ~
WAV编码是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。特点:音质非常好、大量软件都支持。使用场景:多媒体开发的中间文件、保存音乐和音效素材等。; I5 r! r4 j! Q2 R8 l# g/ U6 Q+ m, j. |- N
' X5 m" M4 W* D
image.png2 ?# C! z0 d" Z
3 s9 q$ B* x& i5 q' V
/ ]' ?6 g: r- }4 I' J
2 O3 U7 e6 Y; Z& ^# m
2.MP3编码:
! E' q) H8 Y' t  h. m, J# I; C7 }3 _4 ^6 w$ {1 `5 t; W
    MP3具有不错的压缩比,使用LAME编码的中高码率的MP3文件,听感上非常接近源WAV文件。特点:音质在128Kbps以上表现还不错,压缩比比较高,兼容性好。使用场景:高比特率下对兼容性有要求的音乐欣赏。
' t- M: Q( s6 T! ]8 ~7 q: D# f3 @
& m6 P+ g/ \  E. {$ n) B
3 K: h9 P  P9 c  |. t
3.AAC编码:
4 n3 Y" C  m% B2 a5 Y  P  N: s7 m8 r" d- f% V- |( k
    AAC是新一代的音频有损压缩技术,它通过一些附加编码技术(如PS、SBR等),衍生出LC-AAC、HE-AAC、HE-AAC V2三中主要编码格式。特点:在小于128kbps码率下表现优异,且多用于视频中的音频编码。适用场景:128Kbps 码率下的音频编码,多用于视频中的音频轨的编码。
; f* O; q0 d! L5 k; X2 \) v- A6 f6 F5 J6 ^, I# l7 y! |5 ]. V; R

# q, H* G! @' o. k. ?
& i% k. B, v% o5 W4.Ogg编码:! [) [/ v$ S% Z5 J3 `
& x$ U+ @" k" g" @) _% V: }; Y9 M
    Ogg编码音质好、完全免费。可以用更小的码率达到更好的音质,128Kbps的Ogg比192Kbps甚至更高的MP3还要出色。但是目前媒体软件支持上还是不够友好。特点:高中低码率下都有良好的表现,兼容性不够好,流媒体特性不支持。使用场景:语音聊天的音频消息场景。) G- j5 r( z! Y  ^: V: V1 j' B6 h

3 Z  u7 p4 M6 @/ b8 C, |; N1 o9 R' Q, }

$ n2 n, v8 A) D- f5.FLAC编码: 6 }$ L9 k% Q/ D( l& y1 a5 @
7 B9 [- d9 H3 V# ~8 l) h8 P4 u
    FLAC中文可解释为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频信息,所以可以还原音乐光盘音质 。2012年以来它已被很多软件及硬件音频产品(如CD等)所支持。特点:无损压缩、压缩率高于普通文件夹压缩格式(ZIP、rar等)。使用场景:高品质音乐等。1 i4 E4 t4 V1 X% K& R
) a( j, ~, o7 C' {  q) w* ~
我是新手,请各位老师多多指教。。。

258

积分

2

听众

-10

音贝

音频应用

新手上路

Rank: 1

积分
258
 楼主| 发表于 2005-9-12 05:47:00 | 显示全部楼层
音频压缩. W7 N! {# @) ]& S) }" A. z7 N0 p, L
本质:消除冗余数据
: u3 I* _7 e: b7 m
# I6 i" N# [  I3 {
0 k8 e# Z1 j1 E0 E6 O+ V6 J4 t
, w, f$ G/ W' z+ s9 X9 s3 ?第一:频谱掩蔽效应:
) N4 q/ G0 c6 p6 s7 ]/ s2 e; {
  S( |0 ]9 P: y4 ~( Q    人耳所能察觉的声音信号的频率范围为20Hz~20KHz,在这个频率范围以外的音频信号属于冗余信号。
3 M7 f- i7 h" `: ^2 a
4 q; W: T8 y3 Z* M# }* B" V6 b    人耳听觉范围外的音频信号: 20Hz~20KHz# H6 c, z6 i. g. ^. x# B2 A6 Z

- k& u/ j2 P' M2 [) k/ S  e0 w3 _  J/ l' L
去除人耳听觉频率范围临界附近的值
0 X0 d/ h4 N8 I# N. l* o* i  A
6 S9 k" l6 w" k* U7 t& o大声音附近如果有小的声音可以去除
) g* a! s; {; B) q* c/ q
; V! J& m4 _1 g& x4 L' X- T时域屏蔽效应
" R5 p( x! ~( k5 r( k* |8 m: `0 D1 }/ U( g: ^  l' h1 `: ?
高声附近50ms内如果声音比较小可以去掉4 K) y( n. S, p- N" w$ @
- T7 o* O! F3 B( D0 z
无损压缩
4 p3 L/ S6 ^6 H4 r: o8 ?7 Y2 t: X; W# Q

; J$ w' k: e; u5 j0 u# m9 A* u+ Y" E3 r7 r) X" T0 Z
# n! i% I" Z3 M5 E+ Y2 `4 f
第二:时域掩蔽效应:
  C) t8 `2 U% Y& e# O0 h
. J0 P# }( x2 S, v    当强音信号和弱音信号同时出现时,弱信号会听不到,因此,弱音信号也属于冗余信号。
我是新手,请各位老师多多指教。。。

258

积分

2

听众

-10

音贝

音频应用

新手上路

Rank: 1

积分
258
 楼主| 发表于 2005-9-12 05:48:00 | 显示全部楼层
常见的音频编码器
OPUS、AAC、Vorbis、Speex、iLBC、AMR、G.711等
  • OPUS:
    目前性能最好、质量最高,但是由于时间短,暂时还没有普及,rtmp协议还不支持它。
  • AAC:
    ! G4 B+ S4 G6 T) I& ?2 b
     有损压缩算法,目的取缔mp3,压缩率很高、但还能接近原始的质量;
  • MPEG-4标准出现后,加入了SBR技术和PS技术,目前常用规格有AAC LC、AAC HE V1、AAC HE V2;
  • AAC LV:低复杂度,码流128k
  • AAC HE V1:AAC+SBR 分频编码,低频(减少采样率)和高频(增加采样率)分开编码
  • AAC HE V2:AAC+SBR+PS 由于声道间相同的性质很大,所以对于其它声道只要存储一些差异性的特征
  • AAC格式:

    * Q8 R8 l4 ?9 f, L& R1 V# A
    ADIF-只能从头开始解码,常用于磁盘文件中;
    ADTS 每帧都有一个头信息,可以在音频流的任何位置解码,但是占用比较大。
    AAC编码库:
        Libfdk_AAC > ffmpeg AAC > libfaac > libvo_aacenc
我是新手,请各位老师多多指教。。。

717

积分

1

听众

18

音贝

音频应用新手发布

Rank: 3

积分
717
发表于 2005-9-12 06:54:00 | 显示全部楼层
数字音频输出pcm和raw是什么意思
  x% C/ D1 @- I" lPCM (Pulse Code Modulation) 是一种数字音频编码方式,它将音频信号进行采样和量化处理,将其转换为数字信号。PCM音频文件通常以WAV或AIFF格式存储。/ {9 y! _7 V3 Z0 v

& X1 N( S0 S" `8 N2 O- \( P' fRAW是一种音频格式,它没有进行任何压缩和编码处理,直接将音频信号存储为原始数据。RAW音频文件通常需要提供元数据,如采样率,量化位数等,才能进行解码播放。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

258

积分

2

听众

-10

音贝

音频应用

新手上路

Rank: 1

积分
258
 楼主| 发表于 2005-9-13 03:25:00 | 显示全部楼层
谢谢老师的指点。。。。。。。。。。。。。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频应用 ( 鄂ICP备16002437号 )

GMT+8, 2025-7-22 12:52 , Processed in 0.055758 second(s), 7 queries , Redis On.

Powered by Audio app

快速回复 返回顶部 返回列表