|
亚马逊Echo新品技术解读,如何选择合适的麦克风阵列?9 O) H5 Q/ l& e9 I: _
亚马逊再次引领了远场语音交互的潮流,一口气发布了5款Echo新品,包括第二代Echo和Echo Plus,2.5寸屏幕的Echo Spot,以及Echo Connect和Echo buttons。其中,最为引人关注的是Echo Spot,这个被称为是Echo Show闹钟版的新品带有一个2.5英寸的圆形屏幕,用户可以用它来显示图像、歌词、视频聊天等,售价仅有129.99美元。
7 u3 t! M3 `9 x# _+ I3 A
! W$ u! ~4 L* y3 r: M# }Echo Spot不同于新版Echo和Echo plus,并没有采用环形6+1麦克风阵列,而是缩减了麦克风阵列的配置,选用了环形4麦的麦克风阵列技术。为什么Echo Spot会选择更换不同的麦克风阵列技术呢?
0 \+ h$ u4 C3 ^( r0 Q5 ~
3 u' i$ _. P; i8 M) o
9 p# F) |' n4 Y. \/ Q
7 @& \- v% u R6 G7 @: z1 F
最新亚马逊客厅产品家族:Echo和FireTV系列
, d3 x: b. I. Y2 U1 Y' j U9 T# F6 S7 J
/ a4 M9 R2 H0 O4 V8 {1 y. s5 s' v全球量产麦克风阵列的阵型技术盘点4 M% `; [* p! s3 [
1、Amazon Echo& o: d' d% ^1 K6 |3 N" B
不管第一代还是第二代,Echo都采用典型的6+1麦克风阵列结构,即环形6个麦克风搭配中间1个麦克风,如下图左所示。而且,Amazon一直非常喜欢采用TI的AD芯片TLV320ADC。目前,这种阵型国外主要是Amazon Echo使用,国内也只有联想和科大讯飞曾经模仿过这种阵型,其中,1代联想智能音箱采用的是环形6个麦克风+中间2个麦克风的结构。如下图右所示。
* _ y, V6 K* d5 T. `
; e! Y2 J: ?# N) W
8 G4 p& |! W5 ] g
$ A, i" q$ {1 W% q: ?
这里再说一下科大讯飞,其叮咚音箱系列产品都是模仿的这种结构,讯飞增加了1个麦克风,形成了环形7+1麦克风阵列的结构,如下图所示。叮咚1代和2代的差别主要是1代采用的是驻极体麦克风,而2代换成了模拟的MEMS麦克风。相比Amazon来说,科大讯飞更喜欢科胜讯的芯片,1、2代叮咚产品全部采用科胜讯的AD芯片CX20810,另外,科大讯飞的双麦算法也是采用的科胜讯CX20921芯片。
6 _$ O5 Q: h1 n
% d" ]+ M1 ^7 B4 ]4 B, z, h0 m8 e
) h% q1 }" G6 y6 z5 p# p+ w
2、Echo Show, ^! o3 L' {* s
Echo Show则采用了椭圆形麦克风阵列,国内一般也称为跑道形,其实就是双线形,如下图左所示。这个阵型因为Echo Show的厚度问题所做了折衷处理,也是典型的技术妥协于产品设计的案例。目前,国内只有声智科技供应类似阵型,即L型6麦阵列,见如下图右所示。
& L7 {7 M, O) ?7 A. C/ C4 C9 A) n, G5 C
$ M+ w5 o, B' ?2 e. M
. C% ]) e; w! Z! n! u3、Echo Spot: {: M$ ?6 z$ s4 \/ M) R# m$ E) O
进一步缩减了麦克风阵列的配置,采用了环形4麦的技术,如下图左所示,这个阵型既降低了成本但也保证了一定的效果,这是比较典型的根据场景选择合适技术的案例。目前,国内的声智科技也供应这种阵型的麦克风阵列产品,即兼容4麦和4+1麦的麦克风阵列及开发板,如下图右所示。( K' `& C2 [5 |& z
5 | @- e8 |: I4 T; |5 ^
% }8 Z% `! F/ c6 B! z
4 p, k f% Z, a2 J2 z; e相比6麦阵型来说,减少了2个麦克风之后,这个阵型仅是损失了一些4米以外的远场语音交互性能。但是根据国外产品公司对用户使用习惯的统计分析数据显示,在1-3米的范围是用户最习惯的远场交互距离,所以4麦也适合大多数用户使用场景,尤其是酒店等行业的应用。( Y! B' k2 Y, E/ J5 S% c. _) B5 d0 H
4 h( k3 k0 ^/ G% _
4、Apple HomePod
+ D8 t& Z- k5 P. k2 {+ c采用的是环形6麦方案,环形6麦的优点就是给产品ID设计更大的自由性,同时也兼顾了成本和远场语音交互性能。国内小米AI音箱采用声智科技的前端方案,其中的阵型就是环形6麦,同时为继续降低成本,麦克风也全部采用数字麦克风,这样就省掉了模拟麦克风必须搭配的AD芯片。国内采用这个阵型的还有天猫精灵、小雅音箱,然而,不同于小米AI音箱,天猫精灵为照顾算法因素,依然采用了模拟麦克风+TI ADC的方案。" Y: _& x: G) M- K1 W. J
- @: a6 r7 S7 M, {9 C
8 `; X' V# J; P. T% s! n+ o9 {3 e5 ?, b" Q, }
5、Google Home6 }8 b) D! b/ z
Google Home则独具一格,采用了双麦克风的方案,国内出门问问的智能音箱也沿用了这个方案。国内双麦技术提供商主要是科大讯飞和声智科技。而声智科技的双麦方案主要应用在汽车等行业,其在消费电子领域的成熟应用方案则是单麦克风方案。+ Q. F( \# @* M4 ? k- Q
% x% [/ T8 K3 ]$ n! o( G/ ^& ]1 {6、除此之外,还有一些特殊阵型。
8 N1 \4 l! m& k7 u2 x科大讯飞曾经发布过双层的麦克风阵列,以及4麦线形阵列。除了科大讯飞,声智科技也推出了量产版的4麦线形阵列、3麦三角阵列以及分布式阵列。但是由于这些特殊阵列的产品目前销量还较小,在市场上的影响还很小。8 |3 U9 q- x+ F' Q
O1 z8 T- c' q( P! ?' z) K
为何不同产品的麦克风阵列差异如此大? D+ W" o; k* p( _ E N0 y3 K
从上面的盘点可以看出,Amazon几乎每个新产品系列都会采用新的麦克风阵列技术,国内知名产品的麦克风阵型也多种多样,即便相同的阵型,其阵元间距也会不同,为何会产生这个现象?
. V- w$ V9 G3 q$ B, H# d$ e# `2 E6 G& D
! M* h0 K' d# [. F, E3 U; O
, h- E0 n0 Y, x# x
1、麦克风阵列技术8 Z* @" _9 ]# \0 E! E1 H1 ~
首先从麦克风阵列技术本身来看,麦克风阵列是指应用于语音处理的按一定规则排列的多个麦克风系统,也可以简单理解为2个以上麦克风组成的录音系统。麦克风阵列一般来说有线形、环形和球形之分,严谨的应该说成一字、十字、双L、平面、螺旋、球形等。
3 x' Z% i1 Z+ B' G5 q7 ?
2 v* b# q# z( A. U u至于麦克风阵列的阵元数量,也就是麦克风数量,可以从2个到上千个不等。由于成本限制,消费级麦克风阵列的阵元数量一般不超过8个,所以市面上最常见的就是6麦和4麦的阵型。4 u- s$ E0 ^- g1 d
/ Y7 ^$ M' C! K: G6 j
2、麦克风的质量、数量及布局. G: x- B- Q# H2 i! ?% e2 B% D) w
除了算法,决定麦克风阵列性能的主要就是阵元麦克风的质量、数量及布局。这些基本都是硬件架构所决定,特别是麦克风的质量和数量,又与每个厂商的供应链紧密相关,这就非常容易造成每款产品的差异。比如叮咚1代为保证性能,选择了性能指标更高的指向型驻极体麦克风,而Echo则为了保证量产质量,则选用了性能指标较低的MEMS麦克风。由于算法的持续提升,对于麦克风的要求不再严格,因此MEMS麦克风是当前主流的应用。
5 j7 W0 s9 c8 S. f
, ~6 E) q* }7 p6 ?3、远场语音交互的场景) u; f$ m/ B$ ^) L0 _8 }
其次从远场语音交互的场景来看,比如智能音箱、智能中控和智能汽车的场景肯定不一样,其需求自然也不同。智能音箱一般都是放置桌面,需要360度响应指令,所以环形阵列比较适合,而智能中控一般贴墙固定,仅照顾180度范围即可,这时候线形阵列就能满足。9 e$ t* H2 p9 E" M) e+ C
# ?! ?+ { i U# @; N当然这里也有特殊,比如手机和平板,一般也是3麦或4麦的矩形,这种阵型恰当利用屏幕导向而只是重点满足某个扇形角度的性能。智能汽车又分了两种情况,一种情况是仅满足驾驶员的语音交互需求,则单麦/双麦基本就能满足,另外一种情况则是满足所有乘员,而且重点照顾后排,则需要采用分布式阵列。
- b" S7 ?# e" w& _! G7 C7 [+ x7 \+ o
4、产品设计美观和约束$ i: x! j& c6 G9 A& q/ O7 p' T& z
再次从产品设计美观和约束来看,刚才提到了阵型,这就约束了产品的ID设计,但是产品若有差异就必然需要不同的ID,那么自然就需要形态各异的麦克风阵列。不同的阵元间距和分布会对麦克风阵列性能产生重大影响,所以这个设计过程中是技术和艺术互相妥协的过程。同时麦克风阵列对于遮挡也有一定的要求,当前的麦克风阵列主要是放在顶部,就是为了避免这个问题,当然这个约束也会随着算法技术的不断提高而弱化。1 Y! N# z5 B( C/ q S w
+ g/ ~! ^2 M& x/ w6 f8 R9 L# l
5、产品成本及生产工艺/ i0 f1 ^) j8 K$ t3 X4 W1 d
最后从产品成本及生产工艺来看,比如麦克风的选型问题,驻极体麦克风的性能指标更好,但是由于生产需要大量人工介入导致成本较高,因此当前主要采用MEMS麦克风。MEMS麦克风又分为模拟和数字两种,模拟麦克风+专业ADC的性能指标也更好,但是同时也让成本上升。数字麦克风的难点就是采集的信号相对最差,需要算法处理更多以达到与其他方案同样的效果。
( D, p' E+ s! P* E
|& g# {( ?7 f* B4 ?; x为什么Google Home要选择双麦方案?6 u3 L' a; n) B- e6 ?+ n0 d
偶尔会听到行业人士做的一个类比,人类有两只耳朵,所以两个麦克风就能达到同样性能。这实际上是一个误解,以现在技术来看,即便用100个麦克风,也未必能达到人耳的效果。人耳是极其复杂的一个结构,至今为止实际上科学也没搞清楚所有原理,更谈不上用简单的麦克风进行模拟了。现在的麦克风,实际上都是标量麦克风,所获取的仅仅是声压变化转成的电信号,而且还没有耳廓,更无法根据场景变化随动调整。
6 v) y, @- i) W1 Y8 P& [( U, A" Y
6 i1 K+ _3 C8 X8 Y2 y4 U
& t3 K2 ^6 \. H5 Q2 l# e5 o
4 ?) V; } K+ \* P5 h那么为什么Google Home要采用双麦方案呢?这和麦克风阵列有何差异?事实上,这要从各家不同的技术架构来探讨,当前市面上主要存在三种远场语音交互技术架构。" k* }$ U: V$ `- E6 I( c4 S
$ _: \' N \1 C: D* c6 H1、以Google为代表的纯云端技术架构: z" ?7 O$ ?- a- r, _
首先就是以Google为代表的纯云端技术架构,Google并非不想采用麦克风阵列,因为阵列相比双麦方案具有了波束形成的功能,自然就拥有了更好的噪声和去混响能力,当距离较远或者环境复杂的时候依然能够保证远场识别率。但是由于麦克风阵列涉及了前端硬件,这并非Google所擅长,因此Google就希望能通过云端机器学习的方式来达到类似功能。7 b& z4 N! p: _3 {0 w. k% N
) K/ T/ k t# V5 i5 ^, j
但是麦克风阵列的阵元较多,产生的数据容量太大,而当前的网络上传带宽严重不足,所以只能权衡选择更少的麦克风。实际上若采用前端方案,大部分场景下单麦克风方案也能达到双麦方案的性能。当然多一路麦克风信号对于云端算法来说也是很重要的。2 L- h! P6 S- n2 o9 t* _
9 _) g/ s4 w: m5 {. ~
2、以科胜讯为代表的纯前端技术架构* `- i$ n' |; b2 c! v. r: f/ G
其次就是以科胜讯为代表的纯前端技术架构,双麦降噪实际上是非常成熟的方案,在智能手机和蓝牙耳机上已经广泛应用,但是直接应用到语音交互则需要大量适配工作。纯前端方案的优点就是容易集成到芯片上,缺点就是很难升级以及扩展,这恰好与人工智能不断迭代的趋势不太兼容,也是当前这种方案无法流行的主要原因。
+ w$ H& l* G3 \1 E0 C( R
3 m3 F5 Z J. s O. U9 @ |3、以Amazon为代表的前端+云端方案( Y* y5 K& f' r9 g( A
最后就是以Amazon为代表的前端+云端方案,这种方案是把算法分别放置到前端和云端,根据具体场景可以调配优化,更容易优化性能并扩展功能。这种方案考虑了麦克风阵列与唤醒和识别技术一体化的问题,由于唤醒和识别严重依赖麦克风阵列的算法处理效果,实际上这三种技术是无法完全分割的,特别是麦克风阵列和唤醒技术更是浑然一体。0 c A! u3 q' u
1 q. F: `1 R% {) p
所以国内厂商开发的Amazon Alexa产品,若选用Sensory等提供的唤醒词,总是会比Echo差不少,有意思的是,Alexa与Echo两个团队之间的互相较量,以致于产生了产品接入Alexa平台却要接受更差性能的尴尬。 |
|