在嘈杂的环境下,机器想要听懂声音,它必须能够听的更远更清晰,麦克风阵列充当的就是助听器的角色。然而,现在市场上不少机器人或者智能硬件产品,在面对多人说话时依旧表现的手足无措。哪些因素在影响机器的“听力”?到底该怎么选择麦克风阵列,让机器的“耳朵”更灵敏?
- c& f0 J' J+ s3 J什么是麦克风阵列 由一定数目的声学传感器(麦克风)组成,对声场的空间特性进行采样并处理的系统。 麦克风阵列由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 远场拾音,指运用远场识别和降噪技术,使拾音距离达到5米。 声源定位,利用麦克风阵列,实现360°语音信号采集,并能通过声源定位来确定目标说话人的方向。 人工智能,未来已来
人工智能(Artificial Intelligence)是指能够和人一样进行感知、认知、决策、执行的人工程序或系统。人工智能为何能够工作,主要因为三大法宝:首先是深度神经网络,随着数据量增加,性能不断提升;其次是大数据,互联网和移动互联网的普及有利于获取真实的统计大数据,来自于各种真实环境的数据使模型训练变得更加高效;最后一个很重要的是涟漪效应,在移动互联网下,因为软件免费,用户愿意花时间用这些产品,且不会产生抱怨或反抗。当推出一个不好的人工智能算法(包括图像、语音、自然语言理解)时,就像水滴滴在水面,只有一小部分人才会用到。一旦使用,数据会送到云计算服务器,云计算服务器可以立即学习更新。当水波扩大到更广泛的人群时,系统的性能已经提高。水波的振幅就是系统的误差。当水波扩散,振幅越来越低。当水波纹扩散到第1000万人时,10000001个人是第一次使用这一系统,他会觉得系统很好。利用涟漪效应,可以把不熟的、需要在真实环境中训练出来的系统,真正培养出来。 人机最自然的交互方式
最新的研究结果显示,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。正常来说语音输入的速度是传统输入方式的三倍以上,而随着深度学习技术的发展,当前语音的识别率可以达到97%。 大家可以试想一下这样的场景,回家之前对着手机说一声“我五分钟之后到家”,就会得到回复“好的,按照您的习惯,空调已经调到26度,热水器调到35度”;甚至通过我们的智能硬件交互平台,智能设备互联互通,出差去宾馆,对着宾馆的智能设备说一声“家庭模式”,也能享受到如家一般的感觉。 人机交互痛点 1.识别距离近:语音交互受限距离不能进行远场的识别 2.对话不智能:不能持续进行多轮对话不能打断 3.嘈杂环境:在嘈杂环境下识别率低饱受噪声干扰 4.响应时间慢:不能即时快速响应交互不流畅导致体验下降 阵列麦克风对人工智能的意义 1.远场拾音 人机之间的语音交互(这里主要指智能硬件、机器人等),区别于传统的有屏手持设备,涉及到复杂的环境和远距离拾音的问题。通过麦克风阵列使语音交互距离大大增加,使人机交互更加自然,更趋向于人人交互。 2.声源定位 麦克风阵列可以自动检测声源位置,跟踪说话人,声源定位信息既可以用于智能交互,也可以用于后续的空域滤波,对目标方向进行语音增强。 3.空域处理 对多信号空时频三维的处理实现回声抑制,混响抑制及语音增强,让我们的智能设备在复杂的环境中都可以提供更好的智能语音体验。 麦克风阵列的功能 人机交互过程中的噪声可以分为以下几类:回声,混响,干扰和背景噪声;相应的麦克风阵列具备这样的功能:回声控制,回声消除,回声抑制;去混响;波束形成,声源定位,语音增强,盲源分离,干扰抑制;噪声控制,主动噪声控制,降噪; 麦克风阵列 麦克风阵列产品主要分为二麦、四麦、六麦克风阵列。阵列结构如下图所示: 麦克风阵列构型 以六麦阵列为例,具备以下功能特性:波束形成(波束形状是阵列对不同频率及方向的信号的响应,它与阵列麦克风数目、几何形状、源信号位置以及频率有关。)、回声消支持信噪比-30dB左右、平稳噪声滤波、方向性非平稳噪声抑制、语音增强和去混响、声源定位精度±10°等功能。 六麦阵列包括六麦硬件阵列模块方案和软核方案,硬件模块方案包括一块XFM10621硬件模块,通过连接麦克风、参考信号、供电和I2C即可实现阵列远场拾音和降噪后音频输出,同时支持连续唤醒并输出唤醒信号。
# O9 O, n7 W }- e3 Q% u9 D
6 m! m/ a+ P" j9 x& p2 `* n: v |