音频分类前置知识

2437590 · 发表于 2022-3-11 10:09:11

音频分类前置知识
音频
音频常常被表示为波形图，其中横轴为时间，纵轴为幅值。音频多种多样，分类中一般分为语音、音乐、噪音、静音和环境音等。

采样频率
每秒从模拟信号中采集的样本个数，基本单位为Hz。信号的采样频率一般遵循奈奎斯特采样定理，即采样频率必须大于被采样信号最高频率的两倍。一般而言：

8000Hz为电话信号使用的采样率；
11025Hz通话音质更高，可分辨出通话人；
16000Hz可覆盖几乎所有的乐器和人声频率，也是大多数成年人能够听到的声音频率；
22050Hz为无线电广播长采用的频率；
32000Hz为VCD等多媒体数据文件所使用的采样率；
44100Hz为CD音频使用的采样率；
192000Hz为蓝光音轨和高清晰度DVD音轨的采样率。
采样位数
每一个采样点所使用的二进制位数，即计算机对声音信号的解析度。通常使用的采样位数有8位，16位和24位。

音频的构成要素
声学三要素：声音的音调、音色和响度。
音调：也称音高，对应音频信号的频率。音频信号的音调越高月能够给人以明亮和尖锐的感觉，音调越低越是给人厚重和低沉的感觉。
音色：也称音品，对应音频信号的相位。主要由音频信号波形的包络和信号谐波的频谱，包含不同包络和不同谐波的音频信号的内容也不同。音频信号频谱的基频所产生的能量最大的音称为基音，相应的各次谐波所发出的声音一般被称为泛音。不同的音频信号中一般都包含着固定的基音频率和不同强弱的泛音。
响度：播放出的音频的音量，对应着音频信号的幅度。音频的响度主要取决于信号的振幅大小，也即声音信号包含的能量大小。
音乐三要素：旋律、节奏和和声。
旋律，也称“曲调”，是构成音乐的首要因素。旋律几乎可以指代任何含有音高和节奏的人声或乐器的乐音序列，不同组合的音高和节奏表现出的音乐旋律也不尽相同。
节奏：音乐的节奏是由不同长短或强弱的节拍组成的有序整体，一般而言急促的节奏能够给人带来紧张的感觉，舒缓的节奏则给人带来轻松愉悦的感觉。
和声：在同一时间由两个或两个以上音高的音组合发生形成的声音。
特征提取
音频信号分析一般分为时域分析、频域分析，倒谱域分析等。

时域特征
处理直观、运算量小。设L表示分帧的帧长，ui(n)表示分帧后得到的第i帧信号中第n个点的幅度值。

短时能量DSNL
短时能量常用于音频信号的端点检测，表示音频信号在一段很小窗口内的能量之和：

音频分类模型
常见的音频分类模型包括决策树、K近邻(KNN)以及神经网络的算法。可参见：周志华《机器学习》。

huqin165 · 发表于 2022-3-12 23:44:56

谢谢分享！

帐号		自动登录	找回密码
密码			快速注册

[音频] 音频分类前置知识

相关帖子