|
楼主 |
发表于 2010-5-6
|
TDOA
: J2 v [" A0 T& Y
3 e& k, E; O, A1 P TDOA是先后估计声源到达不同麦克风的时延差,通过时延来计算距离差,再利用距离差和麦克风阵列的空间几何位置来确定声源的位置。分为TDOA估计和TDOA定位两步:
$ b+ @5 V# S& {4 `( G4 R8 J% F: C0 \( P* e. X D8 A0 I
1. TDOA估计
% ]; U, I8 ]0 v+ u4 r3 Q( y! j0 z u5 {! F& C, p; \# \- b
常用的有广义互相关GCC,Generalized Cross Correlation和LMS自适应滤波
% m8 P7 V( q+ l2 ]$ z" l
. L% U% C9 |. v8 A, _ 广义互相关
) {7 {. k3 n1 e" A: D1 G- \' F; r: p; V- p y2 v+ ^
广义互相关
3 T3 v0 R8 Z# [9 u
9 W( q8 ?# s. j$ W+ C 基于TDOA的声源定位方法中,主要用GCC来进行延时估计。GCC计算方法简单,延时小,跟踪能力好,适用于实时的应用中,在中等嘈杂强度和低混响噪声情况下性能较好,在嘈杂非稳态噪声环境下定位精度会下降。) o& o* `; i7 Q; B+ ]0 t& Z$ `) p# T
1 K/ v& E7 c L! \( R) T5 c+ U l, M6 R
LMS自适应滤波
2 n4 r' {* Z, q0 O1 a% Y4 \
& U+ h" t3 q# L# A: b6 z3 i8 ? E 在收敛的状态下给出TDOA的估值,不需要噪声和信号的先验信息,但是对混响较为敏感。该方法将两个麦克风信号作为目标信号和输入信号,用输入信号去逼近目标信号,通过调整滤波器系数得到TDOA。. _/ Q$ z2 e0 {) v! G
0 H7 }/ D4 L6 E! v
2. TDOA定位2 J1 X; l3 c# C* [7 H7 P' T& h# @, E, [
1 t, \) S% _2 j5 e, z0 J TDOA估值进行声源定位,三颗麦克风阵列可以确定空间声源位置,增加麦克风会增高数据精度。定位的方法有MLE最大似然估计,最小方差,球形差值和线性相交等。TDOA相对来讲应用广泛,定位精度高,且计算量最小,实时性好,可用于实时跟踪,在目前大部分的智能定位产品中均采用TDOA技术做为定位技术。
5 d6 s/ X8 q: f9 ?0 t; k
7 c1 V4 @7 ?- R7 a- W/ v6 w1 N 波束形成:: w* u! c( ?4 s5 P& Z5 T
, h/ S, Z" l) t/ ~# p/ d3 u' \# S 波束形成可分为常规的波束形成CBF,Conventional Beam Forming和自适应波束形成ABF,Adaptive Beam Forming。CBF是最简单的非自适应波束形成,对各个麦克风的输出进行加权求和得到波束,在CBF中,各个通道的权值是固定的,作用是抑制阵列方向图的旁瓣电平,以滤除旁瓣区域的干扰和噪声。ABF在CBF的基础之上,对干扰和噪声进行空域自适应滤波。ABF中,采用不同的滤波器得到不同的算法,即不同通道的幅度加权值是根据某种最优准则进行调整和优化。如LMS,LS,最大SNR,LCMV(线性约束最小方差,linearly constrained Minimum Variance)。采用LCMV准则得到的是MVDR波束形成器(最小方差无畸变响应,Minimum Variance Distortionless Response)。LCMV的准则是在保证方向图主瓣增益保持不变的情况下,使阵列的输出功率最小,表明阵列输出的干扰加噪声功率最小,也可以理解为是最大SINR准则,从而能最大可能的接收信号和抑制噪声和干扰。: d b9 E0 K5 Y) n
5 h0 ~/ c" N' N4 ~9 h7 V CBF-传统的波束形成* ^& x6 U* C/ f
6 T( J, t* X, o
延时求和的波束形成方法用于语音增强,对麦克风的接收信号进行延时,补偿声源到每个麦克风的时间差,使得各路输出信号在某一个方向同相,使得该方向的入射信号得到最大的增益,使得主波束内有最大输出功率的方向。形成了空域滤波,使得阵列具有方向选择性。
! E% |& b# x1 A: F ^3 |" \5 k& x$ A- x! n) q
CBF + Adaptive Filter 增强型波束形成
- w: }9 s* ^5 q% d9 [: \: ^
( W( u3 M1 ]( p5 t7 ?; G& _ 结合Weiner滤波来改善语音增强的效果,带噪语音经过Weiner滤波得到基于LMS准则的纯净语音信号。而滤波器系数可以不断更新迭代,与传统的CBF相比,可以更有效的去除非稳态噪声。* G" P% j; B* H2 i1 v2 _6 N
! ~- g6 V6 W$ ~0 w: C
ABF-自适应波束形成4 C+ \, N, u" S/ S8 e; T
8 {9 @1 z# d$ n5 k2 X GSLC是一种基于ANC主动噪声对消的方法,带噪信号同时通过主通道和辅助通道,而辅助通道的阻塞矩阵将语音信号滤除,得到仅包含多通道噪声的参考信号、各通道根据噪声信号得到一个最优信号估计,得到纯净语音信号估计。
9 Q! L8 e' u7 k# v
5 ~# u2 m9 l6 ?( ?; ~$ Y5 j 阵列技术的未来发展
3 u" l4 V/ s6 O7 Y9 G' n
' @$ z* Q3 r1 c1 K6 q: P, K, p 麦克风阵列技术相对于单麦克风系统有很多优点,已成为语音增强及语音信号处理的重要部分。语音增强和声源定位已经成为阵列技术中不可缺少的部分,在视频会议,智能机器人,助听器,智能家电,通信,智能玩具,车载领域都需要声源定位和语音增强。各种信号处理技术,阵列信号处理技术都陆续结合到麦克风阵列的语音处理系统当中,并逐渐得到算法改进和进一步的广泛应用。在复杂的噪声环境,混响环境,声学环境下,强大的硬件处理能力也使得复杂算法实时处理语音增强成为了可能。在未来,语音和图像的紧密结合会成为人工智能领域的新的突破口,在人工智能的风口浪尖,是谁能将语音识别,语音理解,阵列信号处理,远场语音,图像识别,人脸识别,虹膜识别,声纹识别的技术巧妙并有机的结合在一起,并将技术的本质和与人为本的宗旨完美的结合,让我们拭目以待。 |
|