|
语音信号在麦克风阵列中如何处理
, R9 V E& C! ]" P+ C+ F随着人工智能与人们的生活越来越近,语音技术的发展也备受关注。传统的近场语音已经无法满足人们的需求,人们希望可以在更远的距离,更复杂的环境中语音控制智能设备。因此,阵列技术成为远场语音技术的核心。
' C, b" n8 ^4 ]( N7 M- F# M1 s
阵列麦克风对人工智能的意义:
1 ]0 K0 ^: t0 x3 J1 e
2 R& U! v; R& M' ` 空间选择性:通过电扫阵列等空间定位技术可以获取声源的有效位置,智能设备在获取精准的声源位置信息,让我们的语音更加智能,通过算法获取高品质的语音信号质量。
" Y! s3 _" O( K, {9 K8 B+ `% S2 U4 L- M9 T
麦克风阵列可以自动检测声源位置,跟踪说话人,同时可以获取多声源和跟踪移动声源的优势,无论你走到任何位置,智能设备都会对你的位置方向进行语音增强。9 G2 d% [, a/ g0 f* J* |, n& \* Y
% G h8 s! Z' f( S) u& G8 N: A 阵列麦克风增加了空域处理,对多信号空时频三维的处理弥补单信号在噪声抑制,回声抑制,混响抑制,声源定位,语音分离方面的不足,让我们的智能设备在复杂的环境中都可以获取高质量的语音信号,提供更好的智能语音体验。
! x4 Y" ^; j4 ]+ X' _3 W8 g* x1 d3 y8 J1 j2 }$ |
麦克风阵列技术的技术难点:
# _7 P7 g$ Z( X/ K6 Q( K
( P! @. g/ |: G) S- E" H 传统的阵列信号处理技术直接应用到麦克风阵列处理系统中往往效果不理想,其原因在于麦克风阵列处理有不同的处理特点:
0 V) i/ A, W' O5 C$ _2 ~
/ T5 S- Q% h# V 阵列模型的建立
& {/ N. O5 Y% v, _6 W- N( M. D7 g9 _+ c2 O
麦克风主要应用处理语音信号,拾音范围有限,且多用于近场模型,使得常规的阵列处理方法如雷达,声呐等平面波远场模型不再适用,在近场模型中,需要更加精准的球面波,需要考虑传播路径不同引起的幅度衰减不同。
" I0 r3 O7 }6 D* S& ?0 f2 x# b4 M) G! ^: D8 @ S
宽带信号处理
2 f& O' v) |+ A$ D: ^7 I
& J% |4 } b% z9 B2 |+ Q- n 通常的阵列信号处理多为窄带,即不同阵元在接受时延与相位差主要体现在载波频率,而语音信号未经过调制也没有载波,且高低频之比较大,不同阵元的相位延时与声源本身的特性关系很大—频率密切相关,使得传统的阵列信号处理方法不再完全适用。3 H/ O) v5 D& I; {. N
: w: k5 q, h5 }8 R1 D1 g
非平稳信号处理
) v5 M* v, I# o) t3 A
8 E" J9 A/ C" T5 E9 M 传统阵列处理中,多为平稳信号,而麦克风阵列的处理信号多是非平稳信号,或者短时平稳信号,因此麦克风阵列一般对信号做短时频域处理,每个频域均对应一个相位差,将宽带信号在频域上分成多个子带,每个子带做窄带处理,再合并成宽带谱。
0 T% u% g! A4 w% n* K
+ U$ Q. ~# k* ]3 c/ x3 x 混响
/ Z! M. f; W0 G3 U; a) }! m) D* E: S" p
声音传播受空间影响较大,由于空间反射,衍射,麦克风收到的信号除了直达信号以外,还有多径信号叠加,使得信号被干扰,即为混响。在室内环境中,受房间边界或者障碍物衍射,反射导致声音延续,极大程度的影响语音的可懂度。
0 V) }7 q- V% q; D$ o, S0 G: x0 B" P1 A- Z0 g2 P( ?6 j+ E
声源定位2 W$ }3 Z$ D" h
' l0 g3 y0 K% t
声源定位技术在人工智能领域应用广泛,利用麦克风阵列来形成空间笛卡尔坐标系,根据不同的线性阵列,平面阵列和空间阵列,来确定声源在空间中的位置。智能设备首先可以对声源的位置做进一步的语音增强,当智能设备获取你的位置信息可以结合其他的传感器进行进一步的智能体验,比如机器人会听到你的呼唤走到你的身边,视频设备会聚焦锁定说话人等等。了解声源定位技术之前,我们需要了解近场模型和远场模型。/ r1 ~% g; ^' ?; ~) V
6 D/ h& p O( f/ L) } 近场模型和远场模型, Y5 b H- f8 M& E6 H! J6 h
# \! X% i! g* W; l# K0 w9 G7 V
通常麦克风阵列的距离为1~3m,阵列处于近场模型,麦克风阵列接受的是球面波而不是平面波,声波在传播的过程中会发生衰减,而衰减因子与传播的距离成正比,因此声波从声源到达阵元时候的幅度也各不相同。而远场模型中,声源到阵元的距离差相对较小,可以忽略。通常,我们定义2L²/λ为远近场临界值,L为阵列孔径,λ为声波波长,因此阵元接受信号不仅有相位延时还有幅度衰减。) Y6 \: c9 [1 b2 k" P9 S
0 f( z% n9 K0 x8 i/ n
声源定位技术* Y, a$ p6 l) X5 K5 h$ Q
8 H$ j+ p1 V/ P: t# {1 d$ S% @+ D' r
声源定位的方法包括波束形成,超分辨谱估计和TDOA,分别将声源和阵列之间的关系转变为空间波束,空间谱和到达时间差,并通过相应的信息进行定位。 k+ N9 V3 }* ~9 b! ~
/ }0 T+ G: L% P& n: }- n3 j R8 d- _) Z 电扫阵列4 O7 P8 b% B6 A9 C2 v
, D2 m- P2 h- ~+ C; Y6 I T 通过阵列形成的波束在空间扫描,根据不同角度的抑制不同来判断方向。通过控制各个阵元的加权系数来控制阵列的输出指向,进行扫描。当系统扫描到输出信号功率最大时所对应的波束方向就是认为是声源的DOA方向,从而可以声源定位。电扫阵列的方式存在一定的局限,仅仅适用于单一声源。若多声源在阵列方向图的同一主波束内,则无法区分。而这种定位精度和阵列宽度有关—在指定频率下,波束宽度和阵列孔径成反比,所以大孔径的麦克风阵列在很多场合的硬件上很难实现。
1 q9 c) u. L7 |
?+ ?- ]2 E: {0 t5 b 超分辨谱估计; Z+ m, N, o. P z+ | c; `1 X
' B, P5 L2 p( c0 {5 F
如MUSIC,ESPRIT等,对其协方差矩阵(相关矩阵)进行特征分解,构造空间谱,关于方向的频谱,谱峰对应的方向即为声源方向。适合多个声源的情况,且声源的分辨率与阵列尺寸无关,突破了物理限制,因此成为超分辨谱方案。这类方法可以拓展到宽带处理,但是对误差十分敏感,如麦克风单体误差,通道误差,适合远场模型,矩阵运算量巨大。 |
|