|
. c9 h0 e& }0 I O6 C) M* ]8 C
机器学习助力实现更准确的语音识别能力
6 M6 m. `' S4 s2 ?9 J( f4 R - l: _/ |) i6 W* x. h& A( D
4 m3 Y1 e) I3 g# R9 ?3 c
: H w2 S: b- z0 U$ @* f
在2019年,助听设备为美国7.1%的45岁及以上的人群带来了听力的能力。但这些助听器远非完美。研究人员认为他们可以改进这些设备的一种方法是将它们与语音处理模型集成,这些模型可以预测具有不同程度听力损失的个体如何在嘈杂的环境中区分单词。5 c1 ^/ ^! ^% T/ C8 y* C% v
t; Q! |* B& t
# L; N( [' K1 ^. N. K- J8 u, `& K- {6 A* O/ G! a& N7 A
$ X; p7 s% J4 F5 x D7 r1 e+ i
3 N" J& {+ F" } F0 d& Q
( c# X& k7 E5 ?
在允许更定制的听力恢复的步骤中,Jana Roßbach,Bernd Meyer和他们在德国Carl von Ossietzky University of Oldenburg的同事现在开发了一种机器学习模型,他们表明该模型可以正确预测各种听觉条件下的语音清晰度。他们说,他们的模型的未来版本可以集成到助听器中,以提高听力障碍者的语音清晰度。& z& k! ]- [; `+ Y/ e. H) s
4 W, G8 O! b% _/ W2 J! H) P
* F7 J4 R' M8 j3 O K7 _9 O
! @( I2 O$ ~* a2 A( ?# J# h" e; M
现代助听器将传入的声波转换为数字代码,然后通过扬声器将这些声波的放大并发送到耳朵中。这些代码包括有关波的频率及其振幅的信息。但是听觉比简单地探测声波要复杂得多。. O: |1 W$ h: N
! ^2 Y9 P$ {! X" D6 z. _4 U8 k
2 _7 W# ^% u) T5 X% {" y
4 R M+ `$ \- b% @2 y r区分音位(组成单词的声音单位)的能力是听觉的关键组成部分。对于有听力障碍的人来说,这种能力通常会降低。助听器通过使用信号处理算法来改善语音识别,从而帮助减轻这种损失。但是,开发和评估这些算法通常需要耗时的聆听实验,以测试算法在各种声学条件下的能力。
' h* N( H0 Y, C! \" p" h3 y2 k0 J( {
3 X0 a; J9 J- ~7 j9 X- y3 |1 K
: R9 |, K4 ~9 i' N- m$ `
为了解决这个问题,Roßbach,Meyer及其同事开发了一个机器学习模型,该模型确定听众所经历的声学条件,然后估计听众在该环境中识别单词的能力。为了进行此估计,该模型使用基于机器学习的自动语音识别系统。
0 o+ x- @9 y2 k% Y: F0 `4 X3 f; [; C; O9 \5 j' ~0 c! O
; r% d( |9 n5 L+ E2 e! i' E: N
# m3 ^+ p1 {) _' k! k
研究人员使用降格的句子录音来训练和测试他们的模型,以模仿具有不同类型听力障碍的个体在不同嘈杂环境中感知语音的方式。然后,该团队向听力正常和听力受损的听众播放了这些相同的录音。他们要求参与者写下他们听到的每首歌的单词。根据这些答案,研究小组确定了噪声的阈值水平(以分贝为单位),在每种环境下,每个听者的单词错误率为50%,并找到了与模型预测良好的对应关系。
+ U2 o; z% R3 }/ e8 p7 E* X0 h& X3 i& r' y9 g2 W7 _
6 N0 l, \2 y+ @4 _0 ?4 f1 Z% ~$ L, P% J% S- ^8 @
Roßbach,Meyer和他们团队的其他成员希望他们模型的未来版本最终可能会出现在助听器中。但在此之前,他们需要修复当前版本的几个问题。其中一个问题是,该模型“需要关于实际说话内容的信息”,但这些信息在现实世界中并不存在。Meyer说,该团队正在努力解决这个问题和其他问题,目标是创建一个机器学习模型,可以最大限度地提高任何听力障碍者的语音清晰度。/ L! N5 C2 Z' k+ e/ T
1 o4 p' x+ ^7 U% K1 }6 D
2 ]6 i8 T* q0 j4 H
0 E% T, A/ o G' T7 W$ f
信息源于:physics |
|