音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 11385|回复: 7
收起左侧

[音频] 音频编码功能

[复制链接]

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
发表于 2005-9-12 05:34:00 | 显示全部楼层 |阅读模式
音频编码9 B7 l) E  {4 W- v7 I7 R7 k
编码/ U  C2 g- {6 G/ ]- g& d
    即压缩编码,其原理是压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信号,包括人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号。
  m0 Z2 Z; V+ ^: o( e& V+ E4 I. T4 C! o, ^1 F  |4 g
/ P4 v1 G! Z, j
" X! W! k7 l8 d
    模拟音频信号转换为数字信号需要经过采样和量化,
/ h& I7 K6 Y+ i. E- r( Z$ g8 S5 X+ v: L; W) h
    量化的过程被称之为编码,根据不同的量化策略,产生了许多不同的编码方式,' E! U3 t# m# U5 o, z
/ O* z" _) V! g8 ]
    常见的编码方式有:PCM 和ADPCM,这些数据代表着无损的原始数字音频信号,添加一些文件头信息,就可以存储为WAV文件了,它是一种由微软和IBM联合开发的用于音频数字存储的标准,可以很容易地被解析和播放。
" q" X" b; D' U$ c8 H4 Q: k
; |  {$ T6 X8 A; P/ C9 U" C  x$ ]
& r# h5 q2 {  l, E! c5 A  L6 f+ h* Y1 W; F1 o
几个概念
& k8 Y0 ]4 S. W) O/ y$ g. G# r% ~9 m+ H在进一步了解音频处理和压缩之前需要明确如下几个概念:; z4 M# U0 I) K/ D

/ M* H& v3 ^: j' X& c. y4 y
' t  P- `% o2 @8 }, c9 E
$ P/ y! z) k% F1)音调:泛指声音的频率信息,人耳的主观感受为声音的低沉(低音)或者尖锐(高音)。4 F& J3 O1 y& I  m7 Z

2 x% R' c/ r; F& L2)响度:声音的强弱。6 H% ?6 {0 M9 _8 o

# |6 R1 K/ B& i/ f# r) I3)采样率:声音信息在由模拟信号转化为数字信号过程中的精确程度,采样率越高,声音信息保留的越多。1 Q6 C+ Z/ U% p+ I

, x: I' Z1 N1 ?1 J& Z2 [4)采样精度:声音信息在由模拟信号转化为数字信号过程中,表示每一个采样点所需要的字节数,一般为16bit(双字节)表示一个采样点。8 }% ^3 K" H2 D6 @5 v7 w2 v

! y$ ^2 b. a* \+ J  U5)声道数:相关的几路声音数量,常见的如单声道、双声道、5.1声道。
& f! Z7 G# d+ I+ N' |# L# r8 o2 O& ^: P. b; L8 h# `
6)音频帧长:音频处理或者压缩所操作的一段音频信息,常见的是10ms,20ms,30ms。
/ {+ m5 y0 K5 I7 J$ [/ Z6 W5 D, m* }9 B
我是新手,请各位老师多多指教。。。

3656

积分

2

听众

-581

音贝

音频应用新手发布

Rank: 3

积分
3656
发表于 2005-9-12 05:37:00 | 显示全部楼层
音频编码功能
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:37:00 | 显示全部楼层
音频编码基本手段. G" T  ]1 b5 @  P
编码基本手段(1):量化和量化器
0 m' b8 s: D  I) K基本概念:
9 R. D' i* C( c$ g, r: i( e8 r, W1 U1 }! H; [. Y0 T0 M( y2 P. _
量化和量化器:量化是把离散时间上的连续信号,转化成离散时间上的离散信号。
6 f/ ~5 g9 P7 a% a) E$ O1 G: k' K% {+ O3 a
常见的量化器有:均匀量化器,对数量化器,非均匀量化器。
4 V" D. S% h( N) i. X2 {$ ~3 G& X" s. _" O# m2 k
量化过程追求的目标是:最小化量化误差,并尽量减低量化器的复杂度(这2者本身就是一个矛盾)。
9 q& |) G5 T. _% J6 H5 v3 m" O& W1 u4 |9 w6 X
: p3 v; u1 d/ P; i5 p. T

8 z; y9 w) Y4 O, T! O' _% R% y5 s9 h, \" U" `6 n

. f1 ~) a' F5 p0 j+ X常见的量化器的优缺点:, n* A' ^$ L) ~, \
1 I9 |! [1 x; K3 v- h
(a)均匀量化器:最简单,性能最差,仅适应于电话语音。
& G4 d: o6 q" p" ?6 x( b/ z/ p1 x( k/ l& ^3 G3 h
(b)对数量化器:比均匀量化器复杂,也容易实现,性能比均匀量化器好。
- h: z! L& J3 s" Y2 \/ _: [; z3 d" _0 g( W! T$ W2 E  `
(c)非均匀(Non-uniform)量化器:根据信号的分布情况,来设计量化器。信号密集的地方进行细致的量化,稀疏的地方进行粗略量化。
6 X& h! b+ g# E; ?' Z' U7 W8 r5 i, j1 @% C  U. c# J

- Q  ]/ S1 a. z: ]& w0 M8 _# n) q" x, w: t2 h  ~
) r( S: m6 T. I0 l' r0 u8 H& [

: ~4 k) v5 w1 A编码基本手段(2):语音编码器
; U& E; v- _# K9 s  m5 O& ^/ H1基本概念
0 ^; O3 a6 i7 o+ C( E! }2 Q* o' Z! \6 B& b
8 ^9 q4 [& D1 F# Y- k( ?; Q1 [& N
语音编码器分为三种类形:(a)波形编器 、(b)声码器 、(c)混合编码器 。
3 @' [" T' G0 x  q% b& D1 }. x7 \# h

# n: F8 X" i/ D- n  J, O$ H* c& F- j$ }* E2 _
波形编码器以构造出背景噪单在内的模拟波形为目标。作用于所有输入信号,因此会产生高质量的样值并且耗费较高的比特率。 而声码器 (vocoder)不会再生原始波形。这组编码器 会提取一组参数 ,这组参数被送到接收端,用来导出语音产生模形。声码器语音质量不够好。混合编码器,它融入了波形编码器和声器的长处。+ E" [9 d% G* A2 Z1 i% ?

% l8 A' J6 W1 w. `( S9 s
5 I/ n- y6 N9 @8 M+ K9 h) e1 v( o1 [
2波形编码器
2 Z8 O, N8 O" |) [: L% u: k波形编码器的设计常独立于信号,所以适应于各种信号的编码而不限于语音。
+ D) J0 c  B2 o! X$ K7 d1 e! h3 Y2 j  S: o/ A

0 o; _) L; l2 a1 X! i
0 t/ w# S/ T& A时域编码:
0 H1 \7 X% i2 Oa)PCM:pulse code modulation,是最简单的编码方式。仅仅是对信号的离散和量化,常采用对数量化。
, h; n3 [2 U$ I  c* `4 p
: d4 H0 H& l  j$ ]b)DPCM:differential pulse code modulation,差分脉冲编码,只对样本之间的差异进行编码。前一个或多个样本用来预测当前样本值。用来做预测的样本越多,预测值越精确。真实值和预测值之间的差值叫残差,是编码的对象。  A) z+ @6 h1 q7 A# v
. u* D# y4 K8 c6 W9 P
image.png9 k# n+ B9 g3 ^  X+ Z

6 z" {$ M3 A9 w* G( Ic)ADPCM:adaptive differential pulse code modulation,自适应差分脉冲编码。即在DPCM的基础上,根据信号的变化,适当调整量化器和预测器,使预测值更接近真实信号,残差更小,压缩效率更高。
7 `3 ^8 K$ f- q6 |7 M" M
3 n4 e" Z  n: K, d2 |: a6 d( E
, |" S; [3 L" S5 c3 z  p2 q$ [- e9 }
+ u  p" a' u$ n9 v9 w频域编码:
7 g) @( S, t  t8 i/ I          频域编码是把信号分解成一系列不同频率的元素,并进行独立编码。8 o0 O7 [+ D  `' _: w+ V& N
# c1 Z$ K% }* {' m
a)sub-band coding:子带编码是最简单的频域编码技术。% _2 a$ C& `. ~

. R( Z  G1 d$ W0 \( D! `3 Z$ W是将原始信号由时间域转变为频率域,然后将其分割为若干个子频带,并对其分别进行数字编码的技术。1 H* X. t* [) t' M9 b

! Z# }$ E# \% F( U+ m它是利用带通滤波器(BPF)组把原始信号分割为若干(例如m个)子频带(简称子带)。将各子带通过等效于单边带调幅的调制特性,将各子带搬移到零频率附近,分别经过BPF(共m个)之后,再以规定的速率(奈奎斯特速率)对各子带输出信号进行取样,并对取样数值进行通常的数字编码,其设置m路数字编码器。将各路数字编码信号送到多路复用器,最后输出子带编码数据流。对不同的子带可以根据人耳感知模型,采用不同量化方式以及对子带分配不同的比特数。7 B6 e0 |; i: N! V. s8 u5 y0 H$ I
' A6 y- G/ N8 T- y7 w" c* S
b)transform coding:DCT编码。
. x2 O4 W1 B  P2 A, M7 \% B- I/ C
; x$ ]+ {# ~- d0 ^9 M8 r" r, j' t
. f5 z: o5 ~7 x; M
3声码器
7 ^, M: S" w$ ]1 D, w% ~channel vocoder: 利用人耳对相位的不敏感。2 f3 ?7 {- ?4 m4 N8 P1 q

' i( c. Z) z6 R# G6 O2 shomomorphic vocoder:能有效地处理合成信号。0 z9 w7 j& F) a+ Z! u$ w2 ?) [- f

! @. x+ }' q0 f3 S* l# Fformant vocoder: 以用语音信号的绝大部分信息都位于共振峰的位置与带宽上。1 q4 `/ t' y5 a8 W; N: {3 k

) g# W$ k8 p  a" Q$ D  J. T% D0 Olinear predictive vocoder:最常用的声码器。
* M! [# E) b: w# f6 }! h2 S. H  s' @  E4 H7 {

0 i$ l- U1 a% v- Y7 y
; ~- g. z) Z! t3 c3 E4混合编码器
( g3 v$ _5 F. a/ [# z6 v! U    波形编码器试图保留被编码信号的波形,能以中等比特率(32kbps)提供高品质语音,但无法应用在低比特率场合。声码器试图产生在听觉上与被编码信号相似的信号,能以低比特率提供可以理解的语音,但是所形成的语音听起来不自然。6 b" R+ I4 {: X/ k  y0 z0 U. B' M
: ~0 Q* u; a# {4 g% d/ J
/ Q7 f  }, t. s4 E* \7 B6 ]5 B5 j9 ?
% I  m+ k' W$ ~; C. E0 q9 N' j
混合编码器结合了2者的优点:
7 Z8 W9 u4 F) {! G
9 |4 q) y& j, U/ |, F9 V0 L' S
- v1 m, w8 o$ L, j  n
9 R. O3 X+ ?8 B. [6 \7 c0 O7 b, LRELP: 在线性预测的基础上,对残差进行编码。6 M) l) ^$ }2 f1 U$ ]
6 `5 d( l  E3 p, L5 A0 I
        机制为:只传输小部分残差,在接受端重构全部残差(把基带的残差进行拷贝)。
, B, ?8 i( j. E' v0 ^5 R9 C
( s8 L( e3 P9 k0 p3 LMPC: multi-pulse coding,对残差去除相关性,
( g6 Y2 S- }+ \( l6 n6 I9 o; q1 j; c) U
        用于弥补声码器将声音简单分为voiced和unvoiced,而没有中间状态的缺陷。- H6 L+ c: ?% G4 \4 `/ K

# v+ }9 L3 A2 j7 L9 I# rCELP: codebook excited linear prediction,
$ g- [& R- j+ x8 `2 X2 `4 y8 V) ~  ]7 x
        用声道预测其和基音预测器的级联,更好逼近原始信号。
6 \7 z( R  c' C" I5 I( [* w) ?8 [! n- H9 L9 r3 v$ Q$ A
MBE: multiband excitation,
" h) ]5 w9 c( Q( _( x' A& M7 X: \# r/ E+ K  e' v  @
        多带激励,目的是避免CELP的大量运算,获得比声码器更高的质量。
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:45:00 | 显示全部楼层
常见的音频压缩格式" g9 K' k  U. Q& D# b6 N4 W3 x
1.WAV编码:0 G8 U8 i6 Q7 T0 v# T

5 c( X' B0 F8 K' i, NWAV编码是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。特点:音质非常好、大量软件都支持。使用场景:多媒体开发的中间文件、保存音乐和音效素材等。* y! q1 ?" M, m4 h3 X5 d- Y

7 u% V# J, ]* Bimage.png
6 k; W3 M; m; l" x8 j2 y6 h' D  C. s" a- H: K5 I. _
2 x* R( V; g$ f/ t- y+ Z! ~

4 L# i% U; H( _4 b. |" l2.MP3编码:; s/ y/ o& y/ U7 \. N" O

  H; T; ?1 _" {$ a& F    MP3具有不错的压缩比,使用LAME编码的中高码率的MP3文件,听感上非常接近源WAV文件。特点:音质在128Kbps以上表现还不错,压缩比比较高,兼容性好。使用场景:高比特率下对兼容性有要求的音乐欣赏。) C" r7 {. J  t

2 y6 s2 o7 \6 h) D# ]
9 k6 {: j7 L+ A0 q6 F5 [8 @6 J' k5 S1 Y" Y1 t* z
3.AAC编码:, N3 e+ ^8 [+ Q+ D$ _: D$ C# @: R

# ?& e2 o5 l. d. h    AAC是新一代的音频有损压缩技术,它通过一些附加编码技术(如PS、SBR等),衍生出LC-AAC、HE-AAC、HE-AAC V2三中主要编码格式。特点:在小于128kbps码率下表现优异,且多用于视频中的音频编码。适用场景:128Kbps 码率下的音频编码,多用于视频中的音频轨的编码。4 a( P2 F  y+ B- ~, \8 \( }

* V; [# J& s4 B! T
' Z, g# c" z# D5 _! x2 o
* n  n1 o0 L) ]5 V# \4.Ogg编码:; _8 r5 A3 c) l1 F
/ r0 o& o# P% M( o7 d
    Ogg编码音质好、完全免费。可以用更小的码率达到更好的音质,128Kbps的Ogg比192Kbps甚至更高的MP3还要出色。但是目前媒体软件支持上还是不够友好。特点:高中低码率下都有良好的表现,兼容性不够好,流媒体特性不支持。使用场景:语音聊天的音频消息场景。9 ?9 k# A% k3 p$ h4 |

! X; g8 w3 c1 P% i
1 U6 ?. i. V3 S: a6 Q$ Z' i, B4 T$ ?8 K4 z* ]5 k4 m5 n
5.FLAC编码:
: V4 d$ U7 v0 |5 w+ k* o9 I9 H2 T  R& L1 G
    FLAC中文可解释为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频信息,所以可以还原音乐光盘音质 。2012年以来它已被很多软件及硬件音频产品(如CD等)所支持。特点:无损压缩、压缩率高于普通文件夹压缩格式(ZIP、rar等)。使用场景:高品质音乐等。
3 k9 m/ z) V3 l, p$ s  \% k! j3 B" K9 |8 j
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:47:00 | 显示全部楼层
音频压缩
. k5 b- B% T$ F1 G5 A( p8 V8 W本质:消除冗余数据- O) R0 g. c( u" S

, B  ]0 {/ E3 ]3 o! ]- {  Y0 m. _! v$ w) H/ v
, H) G1 C! A( g* G3 c' {
第一:频谱掩蔽效应:# _! E: s/ r5 e, Q' G* D
: L- N: w# M) c" q  p
    人耳所能察觉的声音信号的频率范围为20Hz~20KHz,在这个频率范围以外的音频信号属于冗余信号。: x8 L3 [, _% i1 i! d: k

0 B1 {9 N$ U# a! |    人耳听觉范围外的音频信号: 20Hz~20KHz
1 Z+ s5 U2 D0 i* q0 }' ?# x6 ]( `3 r+ G; c. ^- r
4 a4 e5 }1 R, t$ Z& D3 }9 Z
去除人耳听觉频率范围临界附近的值" c# u# o: I! k5 t
6 Y9 l% ?$ V% A
大声音附近如果有小的声音可以去除
4 i7 d! G% a7 L# b: \  k: ?5 h. m
( h8 T9 |) b8 v时域屏蔽效应
& A/ u( }. ?% i6 D; M3 s, J; L3 S% }1 L! L; D. Z5 c! ?0 K9 q
高声附近50ms内如果声音比较小可以去掉
6 o# R$ z+ d; T  r
! n. n5 J0 z6 |& `4 y  ^% D无损压缩
- D( P( p0 L! ]# {# y: b5 l
7 s% |: O3 h0 [5 N2 R $ a3 h1 \- z9 v/ X5 ^" h5 Y8 O+ S

& b9 C3 Q  \# V' `0 b* _) R
- U& i7 W, R. q第二:时域掩蔽效应:
. ]/ H4 K. I) O) {
. ^1 c: W0 D8 \8 O: E; S& n% H    当强音信号和弱音信号同时出现时,弱信号会听不到,因此,弱音信号也属于冗余信号。
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:48:00 | 显示全部楼层
常见的音频编码器
OPUS、AAC、Vorbis、Speex、iLBC、AMR、G.711等
  • OPUS:
    目前性能最好、质量最高,但是由于时间短,暂时还没有普及,rtmp协议还不支持它。
  • AAC:

    : o( p6 T9 z$ d' @/ a* ^( H; ^6 R* f
     有损压缩算法,目的取缔mp3,压缩率很高、但还能接近原始的质量;
  • MPEG-4标准出现后,加入了SBR技术和PS技术,目前常用规格有AAC LC、AAC HE V1、AAC HE V2;
  • AAC LV:低复杂度,码流128k
  • AAC HE V1:AAC+SBR 分频编码,低频(减少采样率)和高频(增加采样率)分开编码
  • AAC HE V2:AAC+SBR+PS 由于声道间相同的性质很大,所以对于其它声道只要存储一些差异性的特征
  • AAC格式:
    ; k0 Y' |  I9 G' K
    ADIF-只能从头开始解码,常用于磁盘文件中;
    ADTS 每帧都有一个头信息,可以在音频流的任何位置解码,但是占用比较大。
    AAC编码库:
        Libfdk_AAC > ffmpeg AAC > libfaac > libvo_aacenc
我是新手,请各位老师多多指教。。。

717

积分

1

听众

18

音贝

音频应用新手发布

Rank: 3

积分
717
发表于 2005-9-12 06:54:00 | 显示全部楼层
数字音频输出pcm和raw是什么意思( B9 p/ e- y. w7 B  p9 a
PCM (Pulse Code Modulation) 是一种数字音频编码方式,它将音频信号进行采样和量化处理,将其转换为数字信号。PCM音频文件通常以WAV或AIFF格式存储。
  S. K8 j* Z# M* g' w9 w, V% u$ H% ]* E2 [
RAW是一种音频格式,它没有进行任何压缩和编码处理,直接将音频信号存储为原始数据。RAW音频文件通常需要提供元数据,如采样率,量化位数等,才能进行解码播放。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-13 03:25:00 | 显示全部楼层
谢谢老师的指点。。。。。。。。。。。。。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

QQ|小黑屋|手机版|音频应用官网微博|音频应用 ( 鄂ICP备16002437号 )

GMT+8, 2025-6-3 23:39 , Processed in 0.037747 second(s), 7 queries , Redis On.

Powered by Audio app

快速回复 返回顶部 返回列表