|
音频分类前置知识
音频
音频常常被表示为波形图,其中横轴为时间,纵轴为幅值。音频多种多样,分类中一般分为语音、音乐、噪音、静音和环境音等。
采样频率
每秒从模拟信号中采集的样本个数,基本单位为Hz。信号的采样频率一般遵循奈奎斯特采样定理,即采样频率必须大于被采样信号最高频率的两倍。一般而言:
8000Hz为电话信号使用的采样率;
11025Hz通话音质更高,可分辨出通话人;
16000Hz可覆盖几乎所有的乐器和人声频率,也是大多数成年人能够听到的声音频率;
22050Hz为无线电广播长采用的频率;
32000Hz为VCD等多媒体数据文件所使用的采样率;
44100Hz为CD音频使用的采样率;
192000Hz为蓝光音轨和高清晰度DVD音轨的采样率。
采样位数
每一个采样点所使用的二进制位数,即计算机对声音信号的解析度。通常使用的采样位数有8位,16位和24位。
音频的构成要素
声学三要素:声音的音调、音色和响度。
音调:也称音高,对应音频信号的频率。音频信号的音调越高月能够给人以明亮和尖锐的感觉,音调越低越是给人厚重和低沉的感觉。
音色:也称音品,对应音频信号的相位。主要由音频信号波形的包络和信号谐波的频谱,包含不同包络和不同谐波的音频信号的内容也不同。音频信号频谱的基频所产生的能量最大的音称为基音,相应的各次谐波所发出的声音一般被称为泛音。不同的音频信号中一般都包含着固定的基音频率和不同强弱的泛音。
响度:播放出的音频的音量,对应着音频信号的幅度。音频的响度主要取决于信号的振幅大小,也即声音信号包含的能量大小。
音乐三要素:旋律、节奏和和声。
旋律,也称“曲调”,是构成音乐的首要因素。旋律几乎可以指代任何含有音高和节奏的人声或乐器的乐音序列,不同组合的音高和节奏表现出的音乐旋律也不尽相同。
节奏:音乐的节奏是由不同长短或强弱的节拍组成的有序整体,一般而言急促的节奏能够给人带来紧张的感觉,舒缓的节奏则给人带来轻松愉悦的感觉。
和声:在同一时间由两个或两个以上音高的音组合发生形成的声音。
特征提取
音频信号分析一般分为时域分析、频域分析,倒谱域分析等。
时域特征
处理直观、运算量小。设L表示分帧的帧长,ui(n)表示分帧后得到的第i帧信号中第n个点的幅度值。
短时能量DSNL
短时能量常用于音频信号的端点检测,表示音频信号在一段很小窗口内的能量之和:
音频分类模型
常见的音频分类模型包括决策树、K近邻(KNN)以及神经网络的算法。可参见:周志华《机器学习》。
|
|