|
![](static/image/common/ico_lz.png)
楼主 |
发表于 2022-1-18
|
最后根据经验选择的阈值通过比较 中的信号能量确定完整的风噪掩膜 。这一方法的缺点是低频的语音信号可能会包含进风噪掩膜中被滤除。5 J! f' d( j# z/ ~* a
0 ^' \0 a5 F& ]1 T
2 X, s; ^: Y: k8 p8 ^* F" t( C. B) ^1 X
5 w2 ^, l' f/ v2 r8 V+ t! |8 Y6 E* K. J; Q5 {/ ~3 x4 C
图8 形态学方法估计风噪掩膜步骤[2]
, e+ N K: I9 |
8 I/ B2 a6 o( @" C- T* @噪声模板方法 该方法的基本思想是将风噪的声谱图分解为谱包络和精细结构,倒谱分析可以实现这个目的。首先计算带噪信号的倒谱系数。
; v8 J! R7 k; l( U) G" N1 o9 }( E' e
n/ O* m+ ^9 O! ^" Z保留带噪信号倒谱的高阶系数,处理低阶系数。将低阶系数变换回STFT域生成谱包络。# A7 z& T2 g7 `! V( U
3 m/ F( w% M: K0 [' i4 J* C8 k将谱包络与预先训练好的风噪声参考谱包络模板 进行比较,取平方和误差最小的模板 计算低阶倒谱系数来替换带噪信号的低阶倒谱系数,并与带噪信号的高阶倒谱系数组合,经逆倒谱运算即可得到风噪短时功率谱的估计。
/ z) t4 h% z1 [7 |, h; C6 Z% z9 i; C6 r9 M/ d% H9 F
! f' o9 l) }, h& Z* ~$ V8 s6 x# f
图9 噪声模板方法[2]
% ~7 A0 n* [& z! |
" z$ Y" [2 t! [0 O3 Q. l) g, S) k谱质心方法 谱质心是信号能量关于频率的一阶矩,可以反映信号主要能量的频率分布。谱质心方法的核心思想是通过谱质心和其他信号特征分析带噪信号的组成成分,先对信号进行分类,然后进一步决定风噪STPS的估计策略。
- P2 O9 I! C9 } c
8 d! p. X6 ^7 n计算谱质心 可以将带噪信号分为三类[10]:纯风噪( <200Hz)、风噪语音混合信号(200Hz< <550Hz)、纯语音( >550Hz)。
& X% l0 B/ ~- ^, u6 K; z
$ y: j2 e1 u" }' y& b7 K
* P1 D+ v9 x' F O8 h, T3 R! N' j7 X' W- D图10 不同信噪比下谱质心的差异[2]5 r& X7 Z0 w+ X2 c( E, l8 M
1 x# }- r% C8 y
通过谱质心和短时平均等特征对输入带噪信号进行三分类。第一步判断是否为纯语音,若为纯语音则该时频窗风噪的STPS为零。第二步判断是否为纯风噪,若为纯风噪则风噪的STPS就等于输入信号的STPS。若信号被判断为语音和风噪的混合信号,则进行进一步的风噪估计,方法包括最小拟合估计法[10]和自适应音高估计法[11]等。
, y, r" [4 }) A2 `3 Y
& n- |6 m) n k' G% Q# V) `
) M6 f$ D- G5 c4 `3 |图11 谱质心方法流程图[2]9 @' W- B# b4 F# }/ A
3 \/ c- {# r: O9 G' f深度学习方法 风噪声可以通过深度神经网络来估计,[12]提出通过前向深度神经网络(FNN)来估计风噪声的幅度谱。方法是先估计语音信号和风噪声的理想幅值掩膜(IAM) 和 ,然后从带噪信号中分离出语音成分和风噪成分。
J0 ^3 O2 W& }) c0 D
. s3 n4 p/ ?* k5 r1 ]4 S使用两个FNN分别估计 和 ,如下式所示, 和 表示网络参数。神经网络的训练使用[13]中方法使估计的信号和风噪声幅度谱与目标幅度谱的均方误差最小。. C/ O9 A9 C9 x+ w
) K3 N' Q8 S+ A' ?! C k3 D, Z
图12 深度学习方法流程图[12]
) r- x N: l$ {" i$ h8 f# ? F, S8 p$ k* |
增益估计
+ ~$ h. f5 Z' S# }$ f Y4 D% H4 [% L* [8 o
如图7所示,基于频谱滤波的风噪抑制方法重点是求解增益。传统方法如维纳滤波法和谱减法不能取得很好的效果,下面总结几种增益的求解算法。
X. E" V/ b) Z% @2 h+ e* ?# |1 Q9 I, g9 f- P
决策导向信噪比估计 该方法[14]在维纳滤波的框架下提出了一种更新先验信噪比 的方法求解增益 。" i8 o( Q* s" m/ p8 O8 \7 {0 M
2 ]. R/ R) K0 F$ F9 i6 o+ Y风噪抑制系统的后验信噪比估计 可由下式得到。该方法可以提升被增强语音的主观质量,尤其是减少“musical tones”。
0 z! j& R9 o3 E I: l+ S* o
/ K, X6 W: O1 p2 Q- \% B递归增益的谱减法 该方法[8]的目的是为了避免单个离群值对增益计算造成的影响。因此引入一种使用前一时频块增益的回归运算来计算当前时频块的增益。$ @8 ?3 V4 M. A0 P" l5 R
0 F9 w% f7 J2 H! g% b软可听噪声掩膜法 该方法[15]的基本想法是根据心理声学模型在噪声抑制和引入失真之间寻找平衡,即令下式最小。3 c5 \. D! l# j7 C0 n% e6 T
' B! H* Z. o. d, B其中 是根据心理声学模型计算得到的掩膜阈值。由上式推导可得增益估计值如下,参数α可设经验值1。# @' N* c% ?0 d# M: A9 `! t1 J
( V8 D8 d Z7 |5 r5 B' h9 G& L多传声器风噪抑制技术3 w- ?+ @, p$ T! L
: {3 Y. Z- w( q5 s7 B当前最新的智能手机和TWS耳机配备有2个或更多的传声器。因此可以考虑基于双传声器的风噪抑制方法。; H$ h$ L- k9 Z+ z* o s
: Y; ?) Y* d! Q& B5 n; T) e2 F相关加权方法 该方法[16]的思想就是利用语音和风噪的相关性差异,使用幅度平方相关(MSC) 来计算增益,, ~7 J( j1 L8 D4 K
, N& K+ F- ]- h. m) d' {& P差分阵列方法 该方法[17]利用了传声器阵列对于不相关噪声(如风噪声)比较敏感的特点来降风噪,引入功率比的概念," K- u" Q i; y3 q- R* I* J. d
2 L0 P- E" S7 l. U: g& b其中 和 定义如下,
. D, a+ @( j4 q9 R, N4 G* _5 ^# w0 @( x8 ]) P
功率比可以有效分离语音和风噪,如下图所示。从图中可以看出,当传声器间距较小时( )功率比可以较好的分离风噪声和语音。增益函数通过计算纯净语音功率比和带噪信号功率比的比值确定。
, |- n: R9 k+ t1 F4 n
& m# e! B& q* p' P- a. S) Q2 R" G4 U6 q0 L
图13 风噪声和语音功率比[2]" B. R1 ?2 w4 C3 h2 T. g9 q5 y
/ c* Y) Q) A8 V7 `
复相关风噪估计方法 根据[18],假设传声器x和y处的风噪不相关且能量相当,传递函数也相似,则可以得到如下关系,
) ^1 m+ ?5 f( c( N; B8 ?; @
; V) o6 g$ e( H. D; }& \于是风噪声的功率谱密度可以用下式来估计,
. i" V: U' ?( E9 A* c* h4 u9 p- g# q7 K; Y" z) |3 b
在信号DOA已知的情况下引入复相关的相位信息 [19],# C) t0 U& Z) G+ f4 T, _
* V( E- z$ @( l) ]. o对于相关的语音信号, ;而对于不相关的风噪声, 呈现均匀分布。* K2 }- s+ W1 c: F3 ~
7 M6 p1 _: a/ R
; a; Q, r% G# j+ O3 F5 B
图14 语音与风噪声复相关的相位信息分布[2]
; k' N3 [ r: s* M/ Z* |& |" s c2 E" y
# |* m; c1 S& t" v: n风噪声的STPS估计由下式给出。) k- h3 j& K/ ^8 G+ K; g
1 o* W9 | \; t* V8 M" j" w1 X- p
部分语音合成" D, W9 `! L+ q0 f
3 w$ v `' u2 M2 S Z9 S- b实现风噪场景下的语音增强,除了通过抑制风噪,还可以通过部分语音合成的方式。称其为部分语音合成是因为算法保留了原始带噪信号中的不受风噪影响的高频语音(主要为清音),只合成受风噪声影响严重的低频语音(主要为浊音)。实现方法如下图所示,系统可以在抑制风噪的同时合成语音,二者结合生成对语音信号的估计。+ W( w4 J6 @1 D5 ?4 A# l X
6 T1 _/ Y/ k: Z6 Q' u. Q [
0 @4 ~# n. S+ Q6 @- h图15 结合语音生成的风噪抑制框架[2]$ {) F1 T$ Z* `" b! f. [! B
- c1 N4 C) ~8 _8 [8 v* w6 ?& j基于重建的部分语音合成 该方法[20]的基本思想是关注被风噪破坏的低频语音部分,将问题转化为带限语音的增强问题。语音生成部分采用线性预测编码(LPC)实现。带噪语音信号通过截止频率 的高通滤波器保留未被风噪影响的高频部分,滤波器截至频率由下式给出。0 D" b' y5 F, X, Q1 K y0 @
/ r% W! ?$ ^" {, ?5 ?& z. X
纯风噪上限频率 和语音重构上限频率 可根据经验取值(100Hz和1500Hz)。原始信号中包含风噪声的低频部分由人工合成的语音替代。
( v ]' K, B& r; M; ?
" {$ b% v9 j" |' e: L( S
) B1 a4 w5 _; z图16 基于重建的部分语音合成框图[2]
* b1 V$ M# z- k# {' h, g) [) {" c' _1 h! \+ P
基于语料库的部分语音合成 与基于重建的部分语音合成相比,该方法的主要区别是引入了预先训练好的语音信息,方法的流程图如下图所示。方法的主体部分由三部分构成,一是语音合成,不同点在于该方法的激励信号通过音高模板循环(TPC)生成,声道滤波器系数通过比较特征向量的相似程度在预先训练好的字典中寻找合适的系数。二是计算用于结合风噪估计和语音合成的二值掩膜,三是使用传统噪声抑制手段抑制残留噪声,具体实现方案参见[21]。6 e2 g D/ z( v1 H+ w: X t
8 g* w V5 f0 O6 e" Q$ N/ v) }4 N) F' Z, D& m
图17 基于语料库的部分语音合成框图[2]
2 p% \6 _( {6 a% R) z; T2 z. W, t+ o% |, k
展望
; k. h% b+ J3 c& B2 K4 A! F; ~$ A7 ^0 E
到目前为止,人们从多个角度出发,想出了多种抑制风噪的方案并取得了巨大的进展,但距离完全解决声频采集中的风噪问题仍有很长的路要走。例如在大风噪情况(SNR<-10dB)时语音增强算法失效问题,实时风噪抑制问题等还没有得到很好的解决。作为声学领域最具挑战的课题之一,风噪问题还需要更多能人志士投身其中,继续研究。& L! V. s' `" f" f" ~
7 ]2 X8 r. S" F2 S
参考文献
( x: l8 E6 |) @: }[1] 戈尔茨坦. 气动声学[M]. 国防工业出版社, 2014.
' X. T0 [$ K9 s+ j, G7 w+ |[2] Nelke C M. Wind Noise Reduction: Signal Processing Concepts[D].2016.
: G0 n* Y4 b1 y3 P* n& [[3] Fisol U M M, Ripin Z M, Ismail N A, et al. Wind noise analysis of atwo-way radio[C]. 2013 IEEE International Conference on Smart Instrumentation,Measurement and Applications (ICSIMA). 1–5.. U. }9 @3 I) R6 R/ A
[4] Nemer E, Leblanc W. Single-microphone wind noise reduction byadaptive postfiltering[C]. 2009 IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics. : 177–180.* U# j3 [% b- \
[5] Nelke C M, Vary P. Measurement, analysis and simulation of windnoise signals for mobile communication devices[C]. 2014 14th InternationalWorkshop on Acoustic Signal Enhancement (IWAENC). 327–331.8 G4 e) p0 U# Y; Z8 k9 M5 J
[6] LIM J S,OPPENHEIM A V. Enhancement and bandwidth compression of noisy speech[J].Proceedings of the IEEE, 1979, 67(12): 1586–1604.
7 J& L. d# D0 Z5 }! R[7] BOLL S.Suppression of acoustic noise in speech using spectral subtraction[J]. IEEETransactions on Acoustics, Speech, and Signal Processing, 1979, 27(2): 113–120.
/ g8 V1 h3 r* l$ W" S( h) [6 j[8] Hofmann C,Wolff T, Buck M, et al. A Morphological Approach to Single-Channel Wind-NoiseSuppression[C]. IWAENC 2012; International Workshop on Acoustic SignalEnhancement. 1–4.
. X0 b+ G# N- T[9] Kuroiwa S, Mori Y, Tsuge S, et al. Wind noise reduction method forspeech recording using multiple noise templates and observed spectrum finestructure[C]. 2006 International Conference on Communication Technology. 1–5.
1 c! V7 S# p' _9 ~9 |, M* {, ?[10] Nelke CM, Chatlani N, Beaugeant C, et al. Single microphone wind noise PSD estimationusing signal centroids[C]. 2014 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 7063–7067.
. n2 \! T5 Z6 L! d6 H3 w[11] Nelke CM, Vary P. Wind noise short term power spectrum estimation using pitch adaptiveinverse binary masks[C]. 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). 5068–5072.( l2 w! t$ C2 _& j
[12] Bai H, GeF, Yan Y. DNN-based speech enhancement using soft audible noise masking forwind noise reduction[J]. China Communications, 2018, 15(9): 235–243.
- P# p$ Q1 `5 [3 Y0 Q' @[13] Wang Y,Narayanan A, Wang D. On Training Targets for Supervised Speech Separation[J].IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2014, 22(12):1849–1858./ { y9 E# ^" a% v
[14] Ephraim Y, Malah D. Speech enhancement using a minimum-mean squareerror short-time spectral amplitude estimator[J]. IEEE Transactions onAcoustics, Speech, and Signal Processing, 1984, 32(6): 1109–1121.4 ~# Y/ m9 h5 ~7 g1 c: J
[15] Yu R. Speech enhancement based on soft audible noise masking andnoise power estimation[J]. Speech Communication, 2013, 55(10): 964–974.$ ~$ I7 I" [3 s* F, N- f( i4 i) f$ B
[16] Franz S,Bitzer J. Multi-channel algorithms for wind noise reduction and signalcompensation in binaural hearing aids[C]. IWAENC 2010; International Workshopon Acoustic Echo and Noise Control. Tel Aviv, Israel.5 Q( ^+ U. {2 J/ T4 V
[17] ELKO G W.Reducing Noise in Audio Systems: USA, US7171008 B2[P]. 2007-01-30.
% F( `& ^4 T3 e! z2 E9 O[18] Dörbecker M, Ernst S. Combination ofTwo-Channel Spectral Subtraction and Adaptive Wiener Post-Filtering for NoiseReduction and Dereverberation[C]. European Signal Processing Conference(EUSIPCO). Trieste, Italy.
, s- F; O) L3 m' Q/ i[19] Nelke CM, Vary P. Dual Microphone Wind Noise Reduction by Exploiting the ComplexCoherence[C]. Speech Communication; 11. ITG Symposium. Erlangen, Germany.5 E+ P" x) j0 p2 a2 W. `& R1 `, c6 h
[20] Nelke CM, Nawroth N, Jeub M, et al. Single microphone wind noise reduction usingtechniques of artificial bandwidth extension[C]. 2012 Proceedings of the 20thEuropean Signal Processing Conference (EUSIPCO). Bucharest, Romania: IEEE.
1 f% E& T9 o3 a4 I" m* ?[21] Nelke CM, Naylor P A, Vary P. Corpus based reconstruction of speech degraded by windnoise[C]. 2015 23rd European Signal Processing Conference (EUSIPCO). Nice:IEEE: 864–868. |
|