音频基础知识

re-808 · 发表于 2007-6-20 11:32:15

音频基础知识
      使用场景：

      在现实生活中，音频（audio）主要用在两大场景中：语音（voice）和音乐（music）。语音主要用于沟通通信，如打电话，现在由于语音识别的发展，人机语音交互也是语音的一个应用，目前正在风口上，好多大厂都推出了智能音箱。音乐主要用于欣赏，如音乐播放。

      基础知识：

      1、采样和采样率：

现在是数字时代，在音频处理时要先把音频的模拟信号变成数字信号，这叫A/D转换。要把音频的模拟信号变成数字信号，就需要采样。一秒钟内采样的次数称为采样频率。采样频率越高，越接近原始信号，但是也加大了运算处理的复杂度。采样频率可分为8kHZ 、16kHZ、 32kHZ、 44.1kHZ、 48kHZ等。44.1KHZ能支持所有的手机型号，对音频质量要求没那么高的话，可以使用低一点的采样率，比如语音识别一般采用的16KHZ。
      2.、编码制式和采样大小：
采集来的数据当然使用PCM编码(脉冲代码调制编码，即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码) 。Android支持的采样大小16bit 或者8bit，表示一个采样用多少bit存放，现在主流的采样大小都是16bit，在低质量的语音传输的时候8bit 足够了。
      3、声道（channel）：

Android支持双声道立体声和单声道。MONO单声道，STEREO立体声。
      4、编解码：
通常把音频采样过程也叫做脉冲编码调制编码，即PCM（Pulse Code Modulation）编码，采样值也叫PCM值。
编码过程：模拟信号->抽样->量化->编码->数字信号
      5、压缩：

如果把采样值直接保存或者发送，会占用很大的存储空间。以16kHz采样率16位采样位数单声道为例，一秒钟就有16/8*16000 = 32000字节。为了节省保存空间或者发送流量，会对PCM值压缩。
目前主要有三大技术标准组织制定压缩标准：
ITU：主要制定有线语音的压缩标准（g系列），有g711/g722/g726/g729等。
3GPP：主要制定无线语音的压缩标准（amr系列等）,有amr-nb/amr-wb。后来ITU吸纳了amr-wb，形成了g722.2。
MPEG：主要制定音乐的压缩标准，有11172-3，13818-3/7，14496-3等。
      6、码率：
码率 = 采样频率 * 采样位数 * 声道个数；例：采样频率44.1KHz，位数16bit，立体声(双声道)，未压缩时的码率 = 44.1KHz * 16bit * 2 =  176.4Kbps，即每秒要录制的资源大小,理论上码率和质量成正比.
   常用音频格式：
WAV 格式：音质高无损格式体积较大;
AAC（Advanced Audio Coding）格式：相对于 mp3，AAC 格式的音质更佳，文件更小，有损压缩，一般苹果或者Android SDK4.1.2（API 16）及以上版本支持播放,性价比高;
AMR 格式：压缩比比较大，但相对其他的压缩格式质量比较差，多用于人声，通话录音;
mp3 格式：特点使用广泛，有损压缩。
Android支持的音频格式：
音频开发的主要应用：

音频播放器
录音机
语音电话
音视频监控应用
音视频直播应用
音频编辑/处理软件(ktv音效、变声, 铃声转换)
蓝牙耳机/音箱
      音频开发的具体内容：
音频采集/播放;
音频算法处理（去噪、VAD检测、回声消除、音效处理、功放/增强、混音/分离，等等）;
音频的编解码和格式转换;
音频传输协议的开发（SIP，A2DP、AVRCP，等等）。

账号		自动登录	找回密码
密码			快速注册

[音频] 音频基础知识

相关帖子

浏览过的版块