音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

阅读: 4579|回复: 7

[音频] 音频编码功能

[复制链接]

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
发表于 2005-9-12 | |阅读模式
音频应用公众号资讯免费发布推广
音频编码) b8 F8 k1 T5 k( h1 o7 i* G6 W
编码
, o% N* v. ?  D$ H: n; y) S    即压缩编码,其原理是压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信号,包括人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号。' m: c# N' M- u3 @/ {' }$ ], L
8 q6 K7 c3 D& G1 ^7 d, B

0 N+ f% X: E" j$ j( S  a8 r; e0 `
4 j& K% C1 h! W* j3 O" Q    模拟音频信号转换为数字信号需要经过采样和量化,8 P, r( c6 r( Z" d6 k

' e! P* v& P( {    量化的过程被称之为编码,根据不同的量化策略,产生了许多不同的编码方式,
0 R* X' p3 h0 |$ x" a9 `
' ~6 v* j& Y3 G) L    常见的编码方式有:PCM 和ADPCM,这些数据代表着无损的原始数字音频信号,添加一些文件头信息,就可以存储为WAV文件了,它是一种由微软和IBM联合开发的用于音频数字存储的标准,可以很容易地被解析和播放。
2 g% N' \" \4 `1 m7 O! i
! z5 b2 O8 b: {5 G; Q9 m4 p2 v: V3 Y/ J$ [5 s: L
8 }1 K  S- R/ o+ q5 B7 k0 @
几个概念
& H( m& A* ?& N6 _& L0 v+ Q2 w在进一步了解音频处理和压缩之前需要明确如下几个概念:1 a0 `7 L) g: R/ _

- s! b5 |& n' W* C) s
/ L4 R2 I" v+ _0 @3 n' d
1 B/ }! `* c8 v" |3 F+ L1)音调:泛指声音的频率信息,人耳的主观感受为声音的低沉(低音)或者尖锐(高音)。7 x  H' K3 k  c0 z7 k
+ X4 c% B; @0 w
2)响度:声音的强弱。
7 g1 i/ v, z9 V6 S8 \; K9 k. l) W, H% Q6 ?& Y" A- @1 l
3)采样率:声音信息在由模拟信号转化为数字信号过程中的精确程度,采样率越高,声音信息保留的越多。
1 n8 Y, u% f& P
/ L# s; z) a+ }/ c2 B4)采样精度:声音信息在由模拟信号转化为数字信号过程中,表示每一个采样点所需要的字节数,一般为16bit(双字节)表示一个采样点。1 S- y; V. }: \$ b' r- q4 a
+ H% q) _1 t. Z: S; N
5)声道数:相关的几路声音数量,常见的如单声道、双声道、5.1声道。
) `6 X" O( x  O6 l$ x8 N( J% s" Z- T( Z/ }7 }+ f* K+ ?  J
6)音频帧长:音频处理或者压缩所操作的一段音频信息,常见的是10ms,20ms,30ms。
6 [; {/ O+ E* k0 k1 Z
0 P9 j" F% |6 p( l( Z
我是新手,请各位老师多多指教。。。

4086

积分

2

听众

-495

音贝

音频应用新手发布

Rank: 3

积分
4086
发表于 2005-9-12 |
音频编码功能
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-12 |
音频编码基本手段8 s. }' g5 A: L& d- {  A
编码基本手段(1):量化和量化器
8 L4 R; @# ~; E! p3 E1 S/ N基本概念:1 q' r, @5 u3 J3 O& m
! b& K' D3 O4 G8 D3 ?
量化和量化器:量化是把离散时间上的连续信号,转化成离散时间上的离散信号。7 A# J3 Z  ~8 t9 b* U
# D  I) \. v2 v1 J! H' Y7 d
常见的量化器有:均匀量化器,对数量化器,非均匀量化器。; X5 l  z# \& J
0 P( B$ A, U  f* y$ e4 r5 W! B( v
量化过程追求的目标是:最小化量化误差,并尽量减低量化器的复杂度(这2者本身就是一个矛盾)。
9 q0 {! T7 h2 t1 P
. ^" r- v- b9 i, D; d) G% z
% H, \" M3 I9 Z, X! c3 A' D2 K6 m
& a0 d3 T" i( z* ?$ c2 A- Y; M. k: [: p

- j; p! i' T5 N3 B9 x8 C常见的量化器的优缺点:
: y% A3 m& x* r- V* O
7 M) K  Q0 M6 u(a)均匀量化器:最简单,性能最差,仅适应于电话语音。
6 R* M: T8 O- k9 c1 K8 L3 p# Y$ j! G) [+ u  V( i/ D7 w1 K1 R/ ]( c
(b)对数量化器:比均匀量化器复杂,也容易实现,性能比均匀量化器好。
! z/ z" l6 T' G9 y8 H. [* N- Z9 V( J% L
(c)非均匀(Non-uniform)量化器:根据信号的分布情况,来设计量化器。信号密集的地方进行细致的量化,稀疏的地方进行粗略量化。' r8 j6 z3 Z2 b' \

$ F* K1 n9 d, A5 I4 q! |8 g5 C: e$ c8 \6 T  K$ m

$ R$ B7 l  k2 k& z8 i5 C" i" W3 F  H2 t0 C
# X4 m: t/ ~+ T/ m# U- `1 \, `5 j
编码基本手段(2):语音编码器6 `$ G% q+ ]% @6 \( q
1基本概念
  B9 a, d; k8 M* g8 ^7 `) t8 S; w8 {' R

" p1 O' H. E) j  ?& p- y" G语音编码器分为三种类形:(a)波形编器 、(b)声码器 、(c)混合编码器 。0 ~6 V7 ?/ X1 t+ Y% M5 u1 O
! s: R! `! k' z( j2 `7 M: s

: u1 A' I8 O- @% Y( ]) c& @+ J' }  @& R# ]3 {" a
波形编码器以构造出背景噪单在内的模拟波形为目标。作用于所有输入信号,因此会产生高质量的样值并且耗费较高的比特率。 而声码器 (vocoder)不会再生原始波形。这组编码器 会提取一组参数 ,这组参数被送到接收端,用来导出语音产生模形。声码器语音质量不够好。混合编码器,它融入了波形编码器和声器的长处。
% a- _- O/ A% E/ ]# m9 j3 V+ @
3 Q" }  f# f; e9 n' o
4 k  d2 a7 J! A% A1 R- V! P' E- P0 U2 _& T
2波形编码器
' ?) {& j8 d% E/ S0 g. h波形编码器的设计常独立于信号,所以适应于各种信号的编码而不限于语音。
9 o+ c* O; A% m: s( l! F2 W( n. b: @' S) K$ p3 R4 M9 y+ X
* R; Q+ q" }: j2 o$ P, b# e

2 Z! Q0 g' g5 O8 w时域编码:1 O: o1 B; a( d! S
a)PCM:pulse code modulation,是最简单的编码方式。仅仅是对信号的离散和量化,常采用对数量化。
2 u5 W# f% P* T3 m7 G; q. P4 C5 U
( A2 [3 `7 e+ H2 j) `0 Lb)DPCM:differential pulse code modulation,差分脉冲编码,只对样本之间的差异进行编码。前一个或多个样本用来预测当前样本值。用来做预测的样本越多,预测值越精确。真实值和预测值之间的差值叫残差,是编码的对象。
7 p5 D; ^7 `  ?5 z9 s, W* K+ h. |/ ~8 h+ T
image.png
; w* ]4 ]7 k8 E
' r5 m% h# s# G0 K5 D5 Yc)ADPCM:adaptive differential pulse code modulation,自适应差分脉冲编码。即在DPCM的基础上,根据信号的变化,适当调整量化器和预测器,使预测值更接近真实信号,残差更小,压缩效率更高。
: n+ W7 z3 J1 T' T" p
6 `. U% c8 v4 L6 r6 C$ u2 Z' X* {: a
- l4 N# k( E1 L4 u+ U) T1 H
频域编码:
0 n; v5 n& f. A' \6 N          频域编码是把信号分解成一系列不同频率的元素,并进行独立编码。' y; q# l# b. s4 |/ w
7 q% v0 F: M/ b1 Z
a)sub-band coding:子带编码是最简单的频域编码技术。
: R# H/ z5 J: G6 v' f8 v% U( E, Q' L
是将原始信号由时间域转变为频率域,然后将其分割为若干个子频带,并对其分别进行数字编码的技术。3 T7 _* _" \4 c9 m7 B2 k! a

! K; U: g# E0 s: |" b它是利用带通滤波器(BPF)组把原始信号分割为若干(例如m个)子频带(简称子带)。将各子带通过等效于单边带调幅的调制特性,将各子带搬移到零频率附近,分别经过BPF(共m个)之后,再以规定的速率(奈奎斯特速率)对各子带输出信号进行取样,并对取样数值进行通常的数字编码,其设置m路数字编码器。将各路数字编码信号送到多路复用器,最后输出子带编码数据流。对不同的子带可以根据人耳感知模型,采用不同量化方式以及对子带分配不同的比特数。
& f# l7 `- W0 o  N  V8 M4 j: J+ n5 B: H2 p
b)transform coding:DCT编码。
9 _% h3 ^! L- W0 f+ E0 V# d
3 k' Z9 n' Q: @  E6 E! C8 U, Y1 d) n2 p) j

. Z  V' p! p8 e8 i' e3声码器
7 w; c! X6 B# W5 e9 qchannel vocoder: 利用人耳对相位的不敏感。
' [% L. ^8 J! L' [( q4 m' X; Z3 q# k( @% C; a+ D- \
homomorphic vocoder:能有效地处理合成信号。
6 W2 I" X' V9 D' i
1 L. A) q$ \6 ]( z- m$ l7 Gformant vocoder: 以用语音信号的绝大部分信息都位于共振峰的位置与带宽上。. f3 {+ _! B% B1 P3 Y2 T) z
( d( d$ N# a% _$ |' A4 W/ R
linear predictive vocoder:最常用的声码器。
( M- X3 s: s" w& I$ U, {8 R2 ^/ L; x* d
: X  R* I5 {8 r: ~/ x: K2 B

' `! X: E1 ]' R: B" W) }' m# c4混合编码器
) h+ G, x; A" D/ N. G9 B. ^# X0 @    波形编码器试图保留被编码信号的波形,能以中等比特率(32kbps)提供高品质语音,但无法应用在低比特率场合。声码器试图产生在听觉上与被编码信号相似的信号,能以低比特率提供可以理解的语音,但是所形成的语音听起来不自然。
+ u5 Y0 C5 O5 p( U- k+ ?$ I
/ p0 {' r( R1 F% O
: a6 w5 V$ g+ J0 W: w; E# {* F" w
  z9 N0 W& D/ p6 B' N$ ^& b混合编码器结合了2者的优点:+ U/ U/ \1 c2 H. R2 h

8 T9 z" m( ~: o9 r
1 U% H; y$ |. {: O+ {- d+ k5 U& _+ {. b/ T& {; |6 [# |9 P
RELP: 在线性预测的基础上,对残差进行编码。; N, d/ e# U6 h7 E6 o0 ]  e
. F1 E: X5 Q% P4 ]+ v% F
        机制为:只传输小部分残差,在接受端重构全部残差(把基带的残差进行拷贝)。5 y$ B5 \1 C9 O, A7 k) Q! G
. E  P! z3 a; b1 U. A
MPC: multi-pulse coding,对残差去除相关性,$ `$ j7 r) B! E6 d4 S( B
# K8 L: M7 _' Z* f) Y* n% M
        用于弥补声码器将声音简单分为voiced和unvoiced,而没有中间状态的缺陷。- [% D5 }1 u( \6 p9 ]% P- e

8 ?9 ?/ m- ^$ @5 k" ^* k) FCELP: codebook excited linear prediction," f7 z6 m# c( T6 Q0 _

2 ]% ~: i- {# T8 f9 J2 N8 e% Y/ Y        用声道预测其和基音预测器的级联,更好逼近原始信号。7 A; k9 m( O) y% u' K* W' g/ B
5 H" Y9 [/ w( `( _4 `8 p; i  Q
MBE: multiband excitation,
' Z8 x3 _4 X. w( `$ n4 C( G* x  m% W) Q0 O: d$ I; `
        多带激励,目的是避免CELP的大量运算,获得比声码器更高的质量。
我是新手,请各位老师多多指教。。。

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-12 |
常见的音频压缩格式
# n2 a) P8 B5 B' w/ u1.WAV编码:- _6 Q; c! K2 D' _; Q

; I+ @, ]( ~4 S4 K/ hWAV编码是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。特点:音质非常好、大量软件都支持。使用场景:多媒体开发的中间文件、保存音乐和音效素材等。2 h  k  ~( y% w  ]; n8 Z8 t

7 e  C. e3 x1 S* {5 h* W2 P3 fimage.png
3 |3 |8 d) m$ t: l. Q9 v2 n0 W4 h2 L1 z" o0 C* F) T8 W/ n+ M

- F+ U& C) v7 S  v" p3 W% K' ]$ m: b# t
2.MP3编码:. X9 o. r( r# \- L! |2 F
2 g6 f2 H2 P7 |, y
    MP3具有不错的压缩比,使用LAME编码的中高码率的MP3文件,听感上非常接近源WAV文件。特点:音质在128Kbps以上表现还不错,压缩比比较高,兼容性好。使用场景:高比特率下对兼容性有要求的音乐欣赏。
+ S% c$ \  Z' W! p6 Y. O1 v2 u) L8 M- I4 `$ Y* j# E0 B: m, j4 S. I

8 M3 {6 k) f( R; G, F/ H! P5 o2 P; L; \% `% U$ L( ~0 l
3.AAC编码:
  F5 ^, D- F8 W1 [1 X& ]' |/ M7 N; k& }0 U% l# U
    AAC是新一代的音频有损压缩技术,它通过一些附加编码技术(如PS、SBR等),衍生出LC-AAC、HE-AAC、HE-AAC V2三中主要编码格式。特点:在小于128kbps码率下表现优异,且多用于视频中的音频编码。适用场景:128Kbps 码率下的音频编码,多用于视频中的音频轨的编码。+ G$ x% m. F+ @1 m, Q
$ D. y* @: b$ l1 p

8 e, H* A3 r0 s" {3 X$ g5 W- ~- R  \8 u- l" C: t% ~. A
4.Ogg编码:. }  K& }7 c8 Y! b) s9 l

# Y8 k7 z# m5 C0 ?) L    Ogg编码音质好、完全免费。可以用更小的码率达到更好的音质,128Kbps的Ogg比192Kbps甚至更高的MP3还要出色。但是目前媒体软件支持上还是不够友好。特点:高中低码率下都有良好的表现,兼容性不够好,流媒体特性不支持。使用场景:语音聊天的音频消息场景。
, B+ M9 i! i5 J! H, Z4 C. I6 Z7 w: V! G  t" D$ d

6 {+ I8 d3 D, X$ U4 }( o" \  T: N! n: X) [8 K& g2 j
5.FLAC编码:
0 Y4 r+ D3 L# I4 B
" }* m' \8 D' J    FLAC中文可解释为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频信息,所以可以还原音乐光盘音质 。2012年以来它已被很多软件及硬件音频产品(如CD等)所支持。特点:无损压缩、压缩率高于普通文件夹压缩格式(ZIP、rar等)。使用场景:高品质音乐等。
6 B" |# `, ~; g/ Z* q3 f& L& E; z
* q# e: S2 R% w4 T
我是新手,请各位老师多多指教。。。

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-12 |
音频压缩5 z0 f# C) ], Q$ z* E* N
本质:消除冗余数据# e3 u9 S! U4 j0 Y+ f
, M9 ?: m6 V2 g* ~. g7 B# W& W
. U) O* v3 }  `2 u
" n) m! L! s6 D+ W; h6 [  P
第一:频谱掩蔽效应:
2 a6 D/ D: `  j8 N* [; n0 t' V- T4 v
, v/ `" g/ H  ^( }; l% S6 _    人耳所能察觉的声音信号的频率范围为20Hz~20KHz,在这个频率范围以外的音频信号属于冗余信号。
6 X$ _9 a, j' A5 ]! B0 {2 Z. U1 g7 _2 C
    人耳听觉范围外的音频信号: 20Hz~20KHz+ b; X9 G( y  A0 J# y3 U4 \

& O6 d5 R% B  ^# P% v3 F
; }: q3 U; y" B# W* U/ x5 j5 U去除人耳听觉频率范围临界附近的值
' Y' O: l, _- g; {5 Q" n0 ]: {1 L
! O& ?& Y/ q) d7 ^1 t1 }' f) E大声音附近如果有小的声音可以去除1 Y, o+ |+ k& A
) q, B6 j* Y6 Q4 }! I: K! a4 ?
时域屏蔽效应6 H( W# v, @3 z4 O
" q0 Z- J4 v, o" i- p/ N* W3 N
高声附近50ms内如果声音比较小可以去掉! C) h; [: p4 B5 t

. V6 [0 r3 D1 F7 o" s4 N0 u8 Y3 A无损压缩
7 {3 Q1 i8 e! r* X9 m1 u- h+ Y2 d% G

# d0 B; L* G$ W$ R- v' C6 D
# V7 \0 y  Z: E. E: D# z4 U1 y, d0 r4 ?& R
第二:时域掩蔽效应: " U6 J) M2 d" G( g) f- @4 D/ v
& c" Z4 L) q' Y: s' |8 t: ^; _! f
    当强音信号和弱音信号同时出现时,弱信号会听不到,因此,弱音信号也属于冗余信号。
我是新手,请各位老师多多指教。。。

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-12 |
常见的音频编码器
OPUS、AAC、Vorbis、Speex、iLBC、AMR、G.711等
  • OPUS:
    目前性能最好、质量最高,但是由于时间短,暂时还没有普及,rtmp协议还不支持它。
  • AAC:
    ) Y  @9 U6 e9 ^5 j) a
     有损压缩算法,目的取缔mp3,压缩率很高、但还能接近原始的质量;
  • MPEG-4标准出现后,加入了SBR技术和PS技术,目前常用规格有AAC LC、AAC HE V1、AAC HE V2;
  • AAC LV:低复杂度,码流128k
  • AAC HE V1:AAC+SBR 分频编码,低频(减少采样率)和高频(增加采样率)分开编码
  • AAC HE V2:AAC+SBR+PS 由于声道间相同的性质很大,所以对于其它声道只要存储一些差异性的特征
  • AAC格式:
    - {5 l8 ]! S" n. h
    ADIF-只能从头开始解码,常用于磁盘文件中;
    ADTS 每帧都有一个头信息,可以在音频流的任何位置解码,但是占用比较大。
    AAC编码库:
        Libfdk_AAC > ffmpeg AAC > libfaac > libvo_aacenc
我是新手,请各位老师多多指教。。。

717

积分

1

听众

18

音贝

音频应用新手发布

Rank: 3

积分
717
发表于 2005-9-12 |
数字音频输出pcm和raw是什么意思
0 O) I& v: R4 tPCM (Pulse Code Modulation) 是一种数字音频编码方式,它将音频信号进行采样和量化处理,将其转换为数字信号。PCM音频文件通常以WAV或AIFF格式存储。; [1 x* g* h1 k; s# s

$ K$ d8 ^+ t4 b$ t8 Z, ^$ GRAW是一种音频格式,它没有进行任何压缩和编码处理,直接将音频信号存储为原始数据。RAW音频文件通常需要提供元数据,如采样率,量化位数等,才能进行解码播放。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

283

积分

2

听众

-5

音贝

音频应用

新手上路

Rank: 1

积分
283
 楼主| 发表于 2005-9-13 |
谢谢老师的指点。。。。。。。。。。。。。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频招标|音频应用 (鄂ICP备16002437号)

Powered by Audio app

快速回复 返回顶部 返回列表