|
楼主 |
发表于 2017-11-18
|
全球排名前50位MEMS厂商) b- w- w Y) g: |8 X% N
6 g% \" H5 l* T8 \- c, K
国内包括台湾也有一些麦克风厂商,这些厂商主要依靠价格制胜,技术方面并没有建立起太高的壁垒。国内外也出现了一些创业公司,比如美国的Vesper MEMS,以压电麦克风作为主要技术特点,但是这些技术本身就是一线大厂掌握的技术,只是考虑市场因素而没有产线部署。所以这类创业公司当进入量产的时候压力还是非常大的,因为这个行业确实需要重资产和重投入。
; g" n, |; s& C' O
, ~5 _8 W M- X' C! w如何选型适用远场语音交互的麦克风? ) W8 Z+ P# h- H; T8 d
9 C' f( U5 g+ f* f3 [& _( m
远场语音交互的概念其实是相对的。我们知道,语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。9 j( k7 `8 V/ F. |* \) ]
0 `. R3 l; B3 O5 g- R8 F/ F- ~$ V
声学处理主要是仿真人类的耳朵,保证机器能够听得准真实环境下人的声音;( d" ]4 v0 ^4 S; x. |2 T
1 P, ]/ y5 L. X! G8 k" v' I
语音识别则是把听到的人声翻译成文字;( ~+ J0 ~+ W8 t; D" F& P
6 s- l% z d! F* B+ h
语义理解则分析这些文字的意义;! ^: U. ]$ r$ [: ?
2 S/ W% U" a+ _ e" C. I语音合成就把机器要表达的文字翻译成语音。& _" |8 a' d' h& Q- Y+ e
$ V( g. S) ]3 s+ \( @; f R1 z这四项技术虽然独立发展,但实际上无法割裂,同时在其他技术的配合下,才能形成一次语音交互的完整链条。% i; D6 c& ^& u" U; e
' k" N. E, K8 Q; L. j- l
这四项技术虽然独立发展,但实际上无法割裂,同时在其他技术的配合下,才能形成一次语音交互的完整链条。
- l8 _% Z- m* b, t8 f$ Y$ I0 P6 ?6 E# s1 a
以Siri为代表的近场语音识别已经发展了60多年,特别是在2009年以后借助深度学习有了实质性提高,但是正如扎克伯格所说的,当真正产品落地的时候,我们发现用户真正需要的却是类似Echo所倡导的远场语音识别。4 }+ X4 I5 Y! f9 b+ W7 T8 H- b
- A6 m9 t: c$ A c, Z; O8 I显然,这又是一个崭新的技术领域,因为拾音距离的扩大带来的问题不仅仅是语音信号的衰减,而且还带来了复杂的真实环境以及复杂的用户习惯。9 k0 A6 h3 `, z+ j1 I5 |
4 x$ m0 B' ?) f6 w# T
近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到95%以上。3 c9 C1 s: q0 D$ E l! t. u' W
- H- S$ M6 g9 a5 K) J( z
但是,若声源距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这就会严重影响语音识别率。同样的,我们人类在复杂远场环境的表现也不如两两交耳的窃窃私语。
# m) ~4 k! g8 h8 T9 C0 R! i0 Q" O% v
通常近场语音识别引擎在远场环境下,若没有声学处理的支持,比如麦克风阵列技术的适配,其真实场景识别率实际不足60%。而且,由于真实场景总是有多个声源和环境噪声叠加,比如经常会出现周边噪声干扰和多人同时说话的场景,这就更加重了语音识别的难度。因为当前的语音识别引擎,都是单人识别模式,无法同时处理多人识别的问题。
6 c5 \9 w9 q l- y6 p* `. u) o3 d% q6 S9 r: ^
麦克风阵列是当前解决上述问题的主要途径,但是麦克风阵列也有诸多缺陷,其中之一就是对于硬件的要求较高,这包括了麦克风和芯片器件。因此麦克风阵列如何选型麦克风也是非常细致认真的一个工作。那么,如何选型智能语音交互的麦克风呢?
Y X. Q% G& |+ ~0 r5 |% O% t9 A, K. d0 \, v4 U4 ~, F
首先选型前我们要对产品有一个清晰的定义,比如产品销量、产品寿命、产品场景等等,这非常重要。即便性能指标完全一致的情况下,也需要考虑麦克风供应厂商的成本、生产工艺、供货能力等因素,因为传感器件厂商归根结底还是一个生产工艺的问题,比如国内的很多麦克风厂商其实就是直接购买国外英飞凌的MEMS麦克风方案直接封装,并不具有技术研发能力,其生产工艺和生产规模就是国内很多厂商的主要差异。
% U' X; g; l& e
) g: [4 V7 ?3 K L1 Q# J其次选型要重点评估麦克风的性能指标,这包括了灵敏度、指向性、频率响应、阻抗、动态范围、信噪比、最大声压级(或AOP,声学过载点)、一致性这几个指标,其中指向性、信噪比、AOP和一致性是麦克风阵列最主要考虑的指标。8 [' w$ w) v( _; ^* I, [- U j) F( Y
3 r) R' V: B1 S, F: ?8 P2 n一般来说,指向性也就如下图所示的几种类型,各大厂商之间没有实质性差异。7 q9 J* n4 b# h, u0 a) ^5 K
而信噪比(SNR)和AOP对于楼氏、歌尔和瑞声三个巨头来说,相差也不是太大,比如SNR基本都在65dB以上,AOP也都大于120dB,这个参数以上的麦克风质量是当前较为可靠和成熟的,也是一线大厂的主要供应型号。6 [; P) G4 s' P/ i {( @
一致性对于麦克风阵列则是需要特别考量的指标,因为MEMS麦克风需要焊接,这不能对于焊机厂商提出太苛刻的要求,当焊接以后麦克风是否还能保证一定的性能,这对于麦克风厂商来说就是巨大的考验。所以,并不要轻信麦克风厂商提供的技术指标和承诺,需要认证考察他们的工厂以及生产车间及管理。
: ?" W8 @9 s; g O) W5 _" x
7 _7 X7 C8 _! {" n' |) ^* i
3 B' K" B9 G: V/ X" z2 h8 X
最后选型必须实际抽检麦克风的质量,即良品率。从声智科技的经验来看,当批量生产的时候,有时候批次不一样,导致麦克风的差异会很大,特别是一些中小的麦克风供应厂商。而且尤为麻烦的是,MEMS的更换成本也很大,一旦贴片焊接,若出现问题往往导致批量的麦克风报废。当然,这只是量大的时候才需要重点考虑,当量小的时候这个问题不是太过关键。 |
|