音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 11377|回复: 7
收起左侧

[音频] 音频编码功能

[复制链接]

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
发表于 2005-9-12 05:34:00 | 显示全部楼层 |阅读模式
音频编码
* l8 h- q+ W% |; z8 p7 y# g# _编码
* c( S) q5 w% b& P- i0 x: q    即压缩编码,其原理是压缩掉冗余的信号,冗余信号是指不能被人耳感知到的信号,包括人耳听觉范围之外的音频信号以及被掩蔽掉的音频信号。7 a4 u% }: G  U  r/ K/ q0 @9 D
* u1 |' @+ X2 J5 T) ?

! h% S+ b- J& j; `) m9 X6 u3 J# e1 F4 ~
    模拟音频信号转换为数字信号需要经过采样和量化,- N! {( [9 V4 ^! _# t
1 e" X6 p7 Z# T4 \' j7 I* r
    量化的过程被称之为编码,根据不同的量化策略,产生了许多不同的编码方式,* d  b% p- O; O# W  r# [
3 i6 i" h; }, a. Z9 R( }# V
    常见的编码方式有:PCM 和ADPCM,这些数据代表着无损的原始数字音频信号,添加一些文件头信息,就可以存储为WAV文件了,它是一种由微软和IBM联合开发的用于音频数字存储的标准,可以很容易地被解析和播放。. j0 H% `9 D; f2 j& y
+ u& ?7 J* i. y
2 I' j# Q- w8 n: t7 g5 h0 U

/ X% [% \- n# g* b几个概念8 I8 Q+ u- j# `7 C
在进一步了解音频处理和压缩之前需要明确如下几个概念:- @4 V2 E, K# W9 M* s
3 S; \& E, w& f4 d6 f. I/ q( r

: k, ~8 j: U5 J( l
, \% D" [6 L4 [; S& j3 B- H( x/ M% _1)音调:泛指声音的频率信息,人耳的主观感受为声音的低沉(低音)或者尖锐(高音)。% J5 E- s( c" b3 Z* [
. s/ d4 k, N( M, v/ V% h2 M$ ]* F
2)响度:声音的强弱。% a# L  N. x  A$ V# \2 g

0 P* y* y. F4 l% ]2 u& x3)采样率:声音信息在由模拟信号转化为数字信号过程中的精确程度,采样率越高,声音信息保留的越多。
. I( u) v$ b+ `: p
7 q  k( n6 ]( }  \2 i" t3 u4)采样精度:声音信息在由模拟信号转化为数字信号过程中,表示每一个采样点所需要的字节数,一般为16bit(双字节)表示一个采样点。
- N3 [' b3 [- d' u* G! t4 m- E  A8 \3 e
5)声道数:相关的几路声音数量,常见的如单声道、双声道、5.1声道。( U0 Q5 n5 e- k% y/ r( E" l1 t/ y
4 |+ i; x. k9 _1 f* `
6)音频帧长:音频处理或者压缩所操作的一段音频信息,常见的是10ms,20ms,30ms。3 q( r2 ?/ A& k9 z  [. j

8 ?: @* p9 A& j7 Q2 \
我是新手,请各位老师多多指教。。。

3656

积分

2

听众

-581

音贝

音频应用新手发布

Rank: 3

积分
3656
发表于 2005-9-12 05:37:00 | 显示全部楼层
音频编码功能
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:37:00 | 显示全部楼层
音频编码基本手段
: s7 Y: i8 y8 d编码基本手段(1):量化和量化器9 I5 [, F  O6 l* ]$ @$ M8 |
基本概念:
3 ]+ [/ E0 J% v  \9 m3 _/ }/ W7 s& t8 Z2 q0 f! o) V% ~
量化和量化器:量化是把离散时间上的连续信号,转化成离散时间上的离散信号。6 i- _, L" M5 Y8 i' \
2 z0 I9 Q; g5 J, d+ {) ^5 P6 d: l
常见的量化器有:均匀量化器,对数量化器,非均匀量化器。
( q# r" H- C" @  C  [/ @+ z2 ]: R5 }5 u5 z% D% N
量化过程追求的目标是:最小化量化误差,并尽量减低量化器的复杂度(这2者本身就是一个矛盾)。# F8 T6 i) Q# n2 r/ b+ }- _8 B7 b

  _4 H. {, p9 v7 z, y7 z# T1 _# ]- P; E" i& \

) ?2 q& |3 Y( j6 ?! [4 w
3 F4 a( T8 E1 G+ {2 J+ I
! n: Y. C5 f1 b, \, q常见的量化器的优缺点:
* G% D. W# l  C% r, v$ W# q
+ C8 k; J1 R& s1 i% A/ z(a)均匀量化器:最简单,性能最差,仅适应于电话语音。
8 {) P' s0 y0 I! i: t- y/ d" I* C2 S+ b1 D' `% F+ v4 E  G) v
(b)对数量化器:比均匀量化器复杂,也容易实现,性能比均匀量化器好。
: I4 U* ~9 T1 F+ L% ^
) S' v3 P! v6 u  w" j(c)非均匀(Non-uniform)量化器:根据信号的分布情况,来设计量化器。信号密集的地方进行细致的量化,稀疏的地方进行粗略量化。
. Q5 g5 M, }1 k
6 k% R6 w: x) u( F; J( m$ X% u1 E" N3 R6 k1 e

* U5 c" I1 w! g$ N
" I. a; R2 H* a6 |$ z7 B( p8 p' t/ F: Y$ T  u4 d
编码基本手段(2):语音编码器
6 U# a) V/ e, G; f1 r1基本概念3 ~+ {4 L1 U: Y' n6 E* W7 Q
7 s4 z* @& h* o; w7 L% R( [, O8 R

& @: p0 n! w4 Y: M/ I* H语音编码器分为三种类形:(a)波形编器 、(b)声码器 、(c)混合编码器 。3 W3 G. Q+ y, w$ \
1 f" o' e: i. q  l

: \$ ], `' W1 |. X! Z) ~
2 E! i5 }2 q# A8 P+ P波形编码器以构造出背景噪单在内的模拟波形为目标。作用于所有输入信号,因此会产生高质量的样值并且耗费较高的比特率。 而声码器 (vocoder)不会再生原始波形。这组编码器 会提取一组参数 ,这组参数被送到接收端,用来导出语音产生模形。声码器语音质量不够好。混合编码器,它融入了波形编码器和声器的长处。5 {2 [+ [' i, S! ~
  j* T  N+ J) I, w. W
- C8 F% \! q1 s6 A+ j+ y

/ S6 ~0 c! `5 Q  D, |8 k0 l2波形编码器
. B# E9 ?  B4 h: [2 Q6 R4 M2 B波形编码器的设计常独立于信号,所以适应于各种信号的编码而不限于语音。
4 Y4 R9 R3 F( @6 i- }0 w# l: J6 `. o/ ~+ U- V8 s
9 ^$ {) j* m8 s" P" H. c
; R5 v" e, L0 `) |8 Q
时域编码:
1 N- p$ _1 S$ z1 u( s( [a)PCM:pulse code modulation,是最简单的编码方式。仅仅是对信号的离散和量化,常采用对数量化。$ w5 F  r& l4 H1 L4 x

9 }. _" X; d% M* |b)DPCM:differential pulse code modulation,差分脉冲编码,只对样本之间的差异进行编码。前一个或多个样本用来预测当前样本值。用来做预测的样本越多,预测值越精确。真实值和预测值之间的差值叫残差,是编码的对象。5 W: D7 H0 T5 w( a
) C% @) K& z3 `
image.png6 _' p7 M# t3 f
! Q' z5 E" J7 o5 v$ k
c)ADPCM:adaptive differential pulse code modulation,自适应差分脉冲编码。即在DPCM的基础上,根据信号的变化,适当调整量化器和预测器,使预测值更接近真实信号,残差更小,压缩效率更高。# j7 z( t$ ]- \, a  W, e  u$ N
/ g% J/ ]% g* ^2 Y# v7 T% B: A- T
/ L; E! @4 d1 y" a6 E: x2 Z
0 n6 b4 s% R  e0 h& ?; N; U
频域编码:
8 p! G* V* Q8 t( C0 F- [          频域编码是把信号分解成一系列不同频率的元素,并进行独立编码。
+ p% Q- F/ |1 x) n
* U& W+ n3 H& ^' k! x) ~a)sub-band coding:子带编码是最简单的频域编码技术。6 w9 j5 G% h6 k; R% o  o
& |% L$ p  S4 B! G1 F8 U5 A
是将原始信号由时间域转变为频率域,然后将其分割为若干个子频带,并对其分别进行数字编码的技术。6 V8 _- Z- T& t) g' ^
. o! R7 _) Y7 E) M+ o) F$ x& q
它是利用带通滤波器(BPF)组把原始信号分割为若干(例如m个)子频带(简称子带)。将各子带通过等效于单边带调幅的调制特性,将各子带搬移到零频率附近,分别经过BPF(共m个)之后,再以规定的速率(奈奎斯特速率)对各子带输出信号进行取样,并对取样数值进行通常的数字编码,其设置m路数字编码器。将各路数字编码信号送到多路复用器,最后输出子带编码数据流。对不同的子带可以根据人耳感知模型,采用不同量化方式以及对子带分配不同的比特数。8 V1 p6 Q5 T) @2 `8 K* J9 |
! w% T/ z; b: A! H
b)transform coding:DCT编码。  c' |9 E  k5 g
6 W9 r8 H' a; H, D6 I

$ Q6 g# t& O# B; u6 n% K$ `( c; c7 @% M1 F' p2 F
3声码器
  v0 w2 k& A$ {/ ~channel vocoder: 利用人耳对相位的不敏感。1 l* H! h6 O9 _: W" ]; m8 u, p
* {! U3 Z) G. ~2 Z5 T  k, a
homomorphic vocoder:能有效地处理合成信号。
" c$ v. v4 H+ T: u% I9 |; x+ }7 X4 _8 T9 P3 ^. H& Z
formant vocoder: 以用语音信号的绝大部分信息都位于共振峰的位置与带宽上。
1 ?+ ~5 z. h  a8 y; N& Y- M1 q* s; Q- S+ B8 i" A& Y* y$ H
linear predictive vocoder:最常用的声码器。
0 D* f' f8 Y; [. D9 o. @) T0 f4 Z) u/ s' s* q
. @6 s, c* R5 X' X( L- M4 I

( ^, J2 [* @# \, ?! R4混合编码器
& X# G5 G5 w) R: i! |    波形编码器试图保留被编码信号的波形,能以中等比特率(32kbps)提供高品质语音,但无法应用在低比特率场合。声码器试图产生在听觉上与被编码信号相似的信号,能以低比特率提供可以理解的语音,但是所形成的语音听起来不自然。$ r4 y9 G, `" j
% l8 E( V/ y7 G9 o* U
: I9 ~2 n* f  f5 g. G/ _
$ w& J1 J2 B' L+ k1 i( _' I$ x
混合编码器结合了2者的优点:8 t% m. Y, q6 ^8 I

: b6 T& m/ Z8 i  y3 q; c2 T# W! ~% L( u1 p, _( o! {

$ t  I( F: K0 }$ mRELP: 在线性预测的基础上,对残差进行编码。
/ B2 Q; J+ I# c1 ?- h) B& `
7 H/ ?! z1 \7 \; l7 ]5 Z9 T. z        机制为:只传输小部分残差,在接受端重构全部残差(把基带的残差进行拷贝)。3 U1 N- o  d7 n9 X7 L7 B; d. j4 ?2 H
$ i7 ~, }4 ]# l8 {! R
MPC: multi-pulse coding,对残差去除相关性,0 C* J8 C5 w! F2 j
" }7 Q3 T  L- ~  t7 F4 {# _* ^, f; c
        用于弥补声码器将声音简单分为voiced和unvoiced,而没有中间状态的缺陷。4 U5 n% I) P" L/ z- p5 X; F
$ Y3 e. e; g' @& X, ~, e+ x1 s# j. A
CELP: codebook excited linear prediction,6 k; k% {* B  I- l* K: K
& x' B3 p' i& Y; f& z
        用声道预测其和基音预测器的级联,更好逼近原始信号。
# m9 S: |5 t3 S8 c0 c/ d2 {9 \% y  q/ Q$ c
MBE: multiband excitation,5 a7 G( g2 I, f+ A; `

- d' f) x) u5 k# u, h        多带激励,目的是避免CELP的大量运算,获得比声码器更高的质量。
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:45:00 | 显示全部楼层
常见的音频压缩格式; r  d7 N' K4 V$ U1 d  \
1.WAV编码:& v& O1 W3 i( _/ L- s- E0 G
7 G: o7 ~1 \; v. |
WAV编码是在PCM数据格式的前面加上44字节,分别用来描述PCM的采样率、声道数、数据格式等信息。特点:音质非常好、大量软件都支持。使用场景:多媒体开发的中间文件、保存音乐和音效素材等。1 C" G, d9 [  j$ c, n  [
! f4 `& H$ m) [9 f
image.png2 l! a0 g+ H  Z# E9 @; s
: Y& M8 e* D& Z

6 [2 D0 g" B( P4 `: `2 x7 X" _, ?( |5 y8 y$ T
2.MP3编码:
0 X& W: ?/ k5 G; k
" ]% l; N* E8 ?% m+ o    MP3具有不错的压缩比,使用LAME编码的中高码率的MP3文件,听感上非常接近源WAV文件。特点:音质在128Kbps以上表现还不错,压缩比比较高,兼容性好。使用场景:高比特率下对兼容性有要求的音乐欣赏。" j, {  Y+ _9 F3 l, z8 Z

6 R3 [3 _( ]+ `& S: m/ {4 i& Y6 @) b* r3 |

7 U; b' P% W3 \( Y! U* W5 y3.AAC编码:/ g4 z( J$ j. ]7 F  K5 y7 k
6 A. ?8 Q2 ^) s+ d
    AAC是新一代的音频有损压缩技术,它通过一些附加编码技术(如PS、SBR等),衍生出LC-AAC、HE-AAC、HE-AAC V2三中主要编码格式。特点:在小于128kbps码率下表现优异,且多用于视频中的音频编码。适用场景:128Kbps 码率下的音频编码,多用于视频中的音频轨的编码。. i: d( D# ]$ j( k/ ]' w/ K

, ~% q" ^' P" z4 \* w- z
* z: j9 E, B$ e9 V. _
3 t& t& |1 \. T0 }" u7 X, D9 q4.Ogg编码:
7 U8 t5 Q: b6 f. x* ?( G
7 L  O) M( g" [' O    Ogg编码音质好、完全免费。可以用更小的码率达到更好的音质,128Kbps的Ogg比192Kbps甚至更高的MP3还要出色。但是目前媒体软件支持上还是不够友好。特点:高中低码率下都有良好的表现,兼容性不够好,流媒体特性不支持。使用场景:语音聊天的音频消息场景。' q$ l9 {& i  }% F

2 w! j! a1 ~( t+ B) X4 h; w' Q$ h+ i* q& G- O6 k* r0 Z

- b" j* d8 Z) N6 s6 E" T: @0 g5 Y9 P5.FLAC编码: ' N* ^( u0 Y9 E% v% A( n
5 D# s* F% K! f( Q  D
    FLAC中文可解释为无损音频压缩编码。FLAC是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3及AAC,它不会破坏任何原有的音频信息,所以可以还原音乐光盘音质 。2012年以来它已被很多软件及硬件音频产品(如CD等)所支持。特点:无损压缩、压缩率高于普通文件夹压缩格式(ZIP、rar等)。使用场景:高品质音乐等。
8 g+ |& F6 G' x$ ~/ T( z% W
2 u1 s. z7 e, @) @. H
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:47:00 | 显示全部楼层
音频压缩, b' L- l: N. [- R" E0 o, K
本质:消除冗余数据
* ~/ S2 v' h8 M" m  z' o0 S; L+ A- Z) ?9 Q  n
, w. B, p* d; Y5 U4 \
2 \; F0 i6 M  O( e, m: X
第一:频谱掩蔽效应:& F5 u7 J7 Z# o7 z. ~" H; _  O0 w  K
  T# `6 D$ L1 c  v
    人耳所能察觉的声音信号的频率范围为20Hz~20KHz,在这个频率范围以外的音频信号属于冗余信号。  i' P, k4 D6 X2 H5 k# y3 e; O
* f7 Y0 W, C$ g* d0 \- g" ]( C
    人耳听觉范围外的音频信号: 20Hz~20KHz3 Q2 C# b( f; }# q. O! F

9 G/ d3 W6 Y* ^! p: S2 `: E* Y0 C/ t9 M
去除人耳听觉频率范围临界附近的值
/ E2 u( o2 g+ a7 a" O8 N( [& I3 x6 N. B2 G3 r
大声音附近如果有小的声音可以去除
* r) a; b* o% ]5 y, J
5 }1 L8 k3 o4 J+ ]: I) X, p时域屏蔽效应2 l: F& @+ f3 s' l1 h% e+ t2 T3 t

0 s. T! r4 |4 Y$ R高声附近50ms内如果声音比较小可以去掉3 J- L1 [. V$ L3 s
, e) G7 Y1 Y9 F9 C" T& e
无损压缩
( u& l1 e- X9 Z2 ^0 V. {' [. X( X! k! z, f- `: o% w
3 }4 R& p8 \% B5 o; d2 R4 e

) V- i. [9 N; g3 E! e
4 S& G& h8 l( r/ ~第二:时域掩蔽效应:
) T& R' t6 a; S! `; O5 p8 C2 N/ x0 G8 L
    当强音信号和弱音信号同时出现时,弱信号会听不到,因此,弱音信号也属于冗余信号。
我是新手,请各位老师多多指教。。。

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-12 05:48:00 | 显示全部楼层
常见的音频编码器
OPUS、AAC、Vorbis、Speex、iLBC、AMR、G.711等
  • OPUS:
    目前性能最好、质量最高,但是由于时间短,暂时还没有普及,rtmp协议还不支持它。
  • AAC:
    5 R+ A8 j1 a: V; l
     有损压缩算法,目的取缔mp3,压缩率很高、但还能接近原始的质量;
  • MPEG-4标准出现后,加入了SBR技术和PS技术,目前常用规格有AAC LC、AAC HE V1、AAC HE V2;
  • AAC LV:低复杂度,码流128k
  • AAC HE V1:AAC+SBR 分频编码,低频(减少采样率)和高频(增加采样率)分开编码
  • AAC HE V2:AAC+SBR+PS 由于声道间相同的性质很大,所以对于其它声道只要存储一些差异性的特征
  • AAC格式:
    4 Q/ H' f" s4 z8 [' f/ q
    ADIF-只能从头开始解码,常用于磁盘文件中;
    ADTS 每帧都有一个头信息,可以在音频流的任何位置解码,但是占用比较大。
    AAC编码库:
        Libfdk_AAC > ffmpeg AAC > libfaac > libvo_aacenc
我是新手,请各位老师多多指教。。。

717

积分

1

听众

18

音贝

音频应用新手发布

Rank: 3

积分
717
发表于 2005-9-12 06:54:00 | 显示全部楼层
数字音频输出pcm和raw是什么意思- I' a# `; A( _: c) O
PCM (Pulse Code Modulation) 是一种数字音频编码方式,它将音频信号进行采样和量化处理,将其转换为数字信号。PCM音频文件通常以WAV或AIFF格式存储。5 I+ q  P2 D/ \. {2 I
8 D7 B4 w) ?' t/ h
RAW是一种音频格式,它没有进行任何压缩和编码处理,直接将音频信号存储为原始数据。RAW音频文件通常需要提供元数据,如采样率,量化位数等,才能进行解码播放。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

263

积分

2

听众

-9

音贝

音频应用

新手上路

Rank: 1

积分
263
 楼主| 发表于 2005-9-13 03:25:00 | 显示全部楼层
谢谢老师的指点。。。。。。。。。。。。。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

QQ|小黑屋|手机版|音频应用官网微博|音频应用 ( 鄂ICP备16002437号 )

GMT+8, 2025-6-3 22:06 , Processed in 0.043409 second(s), 7 queries , Redis On.

Powered by Audio app

快速回复 返回顶部 返回列表