音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

阅读: 12327|回复: 0
收起左侧

[音频] 音频详解,码率采样率、音频帧、位深度、声道编码

[复制链接]

1417

积分

2

听众

21

音贝

音频应用新手发布

Rank: 3

积分
1417
发表于 2006-7-17 | |阅读模式
音频应用公众号资讯免费发布推广
包括采样率、码率、单双声道、音频帧、编码格式等概念。
& I* v7 X) d0 i7 p' a8 N- o( n3 J0 R" g9 r' a  l; C) ]; N( w
这里先抛出一个关于无损音频的问题。
2 X" c7 J: M+ i1 ], a7 j  I. }+ n: @* c
为什么48KHz采样率的.mp3不是无损音乐 ,而48KHz采样率的.wav、.flac音频是无损的呢?
3 O1 s+ Z, d' C! w
2 ~6 |, P" L5 l5 A) ?7 b# u音频相关概念我们按这样的顺序分类讨论:- G, ~+ N$ m  i! }
' ?/ R( X  O  T2 k- J7 u: T5 W
1、 音频采样的概念* x# d: E5 y5 Z2 u, h( b7 I

% ~- @4 C+ q  _& }2、 单个音频帧的概念8 U# D9 Z1 o: p1 i; [1 ^) B

2 z. u+ L% o% q4 Y) W& U; l" C3、 多个音频帧的概念
+ ^: R1 l0 R+ \0 E6 c$ P+ k) h  i5 \* c
音频采样的概念& r7 v9 }- H9 V* M) j" L7 x2 q
相关概念有:采样、位深度、声道、采样率。3 Y" H- q# \( t' r  O# x

# ~6 h& T( q$ n# I9 s& P6 J3 T与视频不同的是,音频的最小单位不是一帧,而是一个采样。
" S0 r/ y4 y8 t1 L9 g  _/ o# e9 p. v* l. n. h1 U: A
采样是当前一刻声音的声音样本,样本需要经过数字转换才能存储为样本数据。! S+ D! E' Y- j& ?; M, b
- x! A) n8 {: m! C8 {
$ P1 }# G8 c) W) B9 ~3 w8 g
数字转换时会根据位深度转换,位深度就是存储单个样本数据的大小,位深度越大,记录的样本数据精度就越高。
+ N1 w  q- z% ]- E$ w% w5 m. l2 K3 ?" M, _
网络视频、音频文件一般位深度为16bit,常用位深度还有8bit、24bit等。
* z2 e; y6 X, {, j' X: |& \0 _7 L5 a5 C
这里需要一提的是,位深度越大虽然意味着声音还原度越高,但是过高的位深度,如32bit、64bit float或以上,可能需要特殊的软件和硬件设备才能播放。5 w5 i% F/ J* S' B8 g

3 S( o: D* h0 o1 Q9 r! L  ]* M3 O8 ?  P" Q& n0 A$ u$ }
接下来是声道,音频有单声道、双声道、立体声等。! O. n# w9 A- S2 R4 `/ P. p
2 j! t' \7 E& }) O5 T
每个声道的声音样本都会单独记录,一般双声道的采样数是单声道的两倍,多声道同理。7 g& s& H3 q5 p. z
& x6 f8 F% G; x! A  u  b
多个声道的样本数据一般会按声道排列顺序记录,播放时,程序会根据排列顺序将声音用不同的扬声器播放。
" P  j5 o: c+ |8 d0 l! [; k& J1 X) v3 A9 \0 h

. n1 N) I, \* X) E5 S, F/ A而采样率是采样的频率,与视频的帧率类似,是一秒钟对声音的采样个数,如果是双声道,那么1秒采样的个数是采样率的两倍,多声道同理。
4 ?" `; d9 u' L) l
: {7 w" m/ D9 ^6 ~' u普遍认为,流畅且不失真的音频,要求采样率达到40KHz以上,这个采样率是人类听觉频率上限的两倍,一般CD品质音频的采样率是44.1KHz,网络视频、视频文件一般是48KHz。
- g8 [7 F- M$ M5 @9 H
) D/ t7 f  L9 j/ L% H8 h
/ e$ `7 V7 W: Z不过,某些具体场景可能会降低采样率要求,如语音通话、监控摄像头等,这些场景下,音频采样率一般只有8KHz,这个频率虽然听音乐是一种折磨,会一卡一卡的,但是对听清别人说话倒是一点问题没有。
( \8 k. K4 x/ j$ O) \* k+ R8 V  I# a0 C
单个音频帧的概念6 R; J$ _1 g4 D/ i/ R' X8 h
这里我们理解为什么存在音频帧就可以了。
* P8 x. X, K2 |/ i* _) {% z! L0 Y; b3 j& m: U8 l6 j. \9 C5 L
理论上,音频并不需要音频帧的概念,因为音频采样数据和采样率已经可以把音频播放描述清楚了。! D( b- k5 |. I. l- n8 `

4 D, x1 z8 x; N" E$ I但是音视频文件播放时,为了保证音视频同步,程序需要根据每帧的播放时间戳进行有序播放。0 t9 o- o( l. d- X: Q
9 R6 B0 x- _* W) l/ Y& y/ U/ O' U
但是每个音频采样数据太小了,如果每个采样数据都记录播放时间戳的话,那么就得不偿失了。毕竟一个时间戳数据的大小比一个音频采样数据都大,所以就有了音频帧的概念。
: \) z! V6 m8 Z7 Z* k8 L( O* k
% t0 X  R+ m9 w# k6 }音频帧实际上就是把一小段时间的音频采样数据打包起来,如每20ms的音频采样数据合并成一帧。8 Y6 q& b+ Y1 G

: Z) U# i$ p. N$ Q4 m这里的具体时间间隔是具体编码码格式决定的,一般不需要特别关心。+ o/ O* N' B% x
& K. f9 D* W5 l2 l- T! l5 I

: c& j* v9 [# C5 n1 h多个音频帧的概念6 U% O8 Q; W, ^1 c& N
多个音频帧的概念有播放时间戳PTS、码率、编码格式。与& ?( M2 b4 r* g8 X, O
& u; Q: M: G/ _8 `: z; Z' V6 M
视频帧一样,每一帧音频帧也会记录播放时间戳PTS,程序播放时会根据播放时间戳PTS播放音频帧。
- @9 \6 p2 W( ^/ n& T$ w& u% F; y$ o
音频帧的播放是比较特别的,因为一帧音频包含的是一小段时间的音频采样,所以实际上音频帧的播放时间戳只是这一小段音频的开始播放时间,里面的采样数据会根据采样频率连续播放。
* k. P/ g! j8 G8 f7 @
7 W/ ^& ]$ z% E0 M" {  E6 X& q9 w% Z( p2 N  \. @0 W% L
同时音频也有码率,也就是常听到的音频比特率,码率就是一秒钟的数据量大小。
! l5 L# p, [& j4 s- Y0 ]# g
' j9 g- k) x3 _在不压缩的情况下,音频码率的大小=采样率*位深度声*道数。9 V  I5 B. d$ _) D, E9 J
) P) U% f4 R2 @! ?  E  m

4 o+ P# `  ]4 n! I8 @接下来是编码格式,编码格式实际上是压缩数据的方式,常用的编码格式有wav、mp3、aac等,音频编码格式有有损、无损压缩之分。
9 F% m1 d2 S; A/ e! ?" j; R; Y6 s' o. R& |% U& b
* M! b  k  [' s8 j7 ]5 ^) g- \
这里可以解释开篇的问题了,为什么采样参数相同的mp3和wav文件会有不同的音质,这实际上是编码格式的问题。
1 L4 z  X% P/ |6 Y, ?8 }, x+ k% E( q8 K
+ J2 c/ a0 r; j; J3 G/ e. A  Dmp3、aac这些编码格式是有损压缩,其中mp3支持的最大码率是320Kbps,而wav编码格式是无损压缩,虽然压缩后的码率可能会比降低,但是它在播放时能无损还原采样数据。
3 O9 v3 C1 n4 o" A) r$ C; s
, ^7 x5 q3 r( p2 }* H+ F最后值得一提的是,在网络音频文件、音频直播时,需要考虑限制码率,限制码率的目的是为了限制数据量的大小,避免带宽、流量等问题。
5 N) }$ p* e% b& E9 U1 N" s6 {( [8 i1 X5 a
音频编码格式一般采用aac,音频码率一般设置为128Kbps就可以了。
9 o: |! R: f- J/ d" Y
) Z( I. o2 P2 b+ a总结
# K9 a, p! Q: J以上是音频的基础概念,音频在很多介绍中都不会说到音频帧,因为普通的视频编辑场景是用不到的,但是在音视频处理中音频帧的概念是十分重要的,不然会出现很多问题,如音频重编码重采样后,出现卡顿、音频播放过快等问题。; s, X; L2 W8 g1 N/ G: E; ]

/ ?4 ], V# o6 t7 v8 K9 Q* f介绍完了音频和视频的基础概念,后面我们会介绍关于音视频处理、识别的一些软件和框架。

相关帖子

音频应用
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频招标|音频应用 (鄂ICP备16002437号)

Powered by Audio app

快速回复 返回顶部 返回列表