Facebook打算用AR与空间音频赋予你“超级听力”

jenson · 发表于 2020-9-8

Facebook打算用AR与空间音频赋予你“超级听力”

2018年时，Facebook AR部门主任Ficus Kirkpatrick首次对外公布AR眼镜计划，后来据The Information爆料，Facebook计划在2023年以后推出两款不同形态的AR眼镜。

尽管距离2023年还有几年时间，外界对于未来的Facebook AR眼镜了解的信息的并不多，但最近Facebook Reality Labs（FRL）的研发部门在官方博客中公开了一项与AR眼镜相关的新研究，让我们了解到未来AR眼镜可能采用的空间音频技术和应用场景。

那么Facebook研发的AR空间音频技术是怎样实现的？效果如何？与Magic Leap、苹果等公司的AR音频技术有哪些不同？如果对这些问题感兴趣，就请继续看下去吧。

关于研发初衷

首先，先来了解一下为什么要为AR眼镜加入具备空间感的音频功能。FRL希望通过立体的声音来提升人在虚拟空间中的临场感，以及强化音频感知能力，同样置身于吵闹的环境中，你可以通过AR眼镜的空间音频技术，更清晰听到自己想听的声音。从而，简化人类之间的沟通，甚至帮助失聪或听力衰退的人感知世界。

就像是Arthur C Clarke曾经说过的那样，任何卓越的科技，就如同神奇的魔法。尽管目前这项技术还处于原型开发阶段，但它已经能够实现一些有如“魔法”般的效果。

比如，当你在线上听课、语音/视频办公、或是远程参与家人的生日派对时，首先需要一个安静的环境，保证能清晰听到对面的声音。另外，若想要提升线上沟通的沉浸感，对3D立体音频的支持也足够重要。尽管讲话者在遥远的地方，但是3D环绕式音频可以让你感觉对方就在你周围说话。这种体验也被称为，社交临场感。

t010800d66a68272e58.webp.jpg

目前，普通的2D音频不足以营造“社交临场感”，因为音响/耳机传递的声音缺乏空间感，与真人发出的声音有较大区别。而且，大部分音频技术不支持主动降噪，在吵闹环境中体验感不佳。此外，即使是两个人面对面在吵闹的环境中交流，也容易受到周围噪音影响，社交质量大打折扣。

这时候，一种通过降噪等技术优化音频感知体验的AR眼镜或许能派上用场，让你即使在饭店、咖啡馆、演唱会等场合，也能实现如面对面般有效的交流。此前，Bose推出的Frames音频眼镜就号称能让你在杂乱的环境中依然能清晰的打电话、听音乐，而Facebook的方向是希望通过对人耳结构的定制优化，进一步提升声音效果，接下来我们也将继续详细解释。

关于FRL空间音频的效果

由Ravish Mehra负责的FRL的音频团队来自多个领域，其中包括科学家、工程师、设计师等等，他们希望通过创新的音频技术来提升社交效果，以及解决各种科研难题。具体来讲，该团队希望达成两大目标：创造出与真人声音难以区分的虚拟音频技术，以及重新定义人类的听觉。

为了实现上述目标，FRL的音频系统需要具备两个效果：一个是声音临场感，另一个是带来如“超能力”般的声音感知能力。第二个效果比较有趣，FRL希望通过AR眼镜的音频系统，让你有选择的接收周围的声音，听清自己想听的重要信息。也就是说，AR眼镜不仅能提升我们的视觉体验，也能从听觉上为我们赋予“超能力”。

团队中的研究员Pablo Hoffmann曾经用一个实验来展示空间音频的效果，即：一个人在桌边佩戴一副耳机，麦克风固定在耳朵附近，接下来麦克风会录制这个人耳边能听到的各种声音，比如：环境音，以及Hoffmann在他周围不同位置，以不同音量说话和弹吉他的声音。

t01cd9eade61c15b540.webp.jpg

接下来，这个人将从耳机中听到经过算法和软件处理过的空间音频回放。他发现，回放的声音与真实声音难以区分，尽管Hoffmann没有再发出声音，也感觉他好像在说话。该团队科研负责人Philip Robinson表示：“感官上难以区分”的音频，在真正体验后，才会发现有多神奇。

解构空间音频系统原理

但有人在房间中和你说话，你可能一只耳朵会比另一只先听到声音，左右两只耳朵感知的音量也会不同。甚至，人耳不同的结构，也会对声音感知产生微妙的影响。两只耳朵捕捉到的声音信号，会通过大脑进行处理，识别声音的来源。

t01451a91b9dc3d3972.webp.jpg

除此之外，空间中的声音也会与环境交互，比如从墙上反弹至你的耳朵。声音的这些特性，是音频仿真索要模拟的重要元素。因此，FRL音频团队从定制化的空间音频和捕捉声音与环境的互动两个方向入手，对音频系统进行优化。

1）定制化的空间音频

在一个数百美元打造的无回音室中，FRL研发了一个360°旋转的音响系统。音响系统的机械臂部分是圆弧形的，就像是地球仪支架一样可以360°旋转，上面配备了54个大功率音响，作用是模拟噪音，用于探索噪音与人耳之间的作用，并计算出头部相关传输函数（HRTF）。

目前主流计算机游戏和VR采用通用的HRTF，并不会对不同使用者进行调整，因此空间音频的准确性不够完美。如果使用无回音室系统根据每个人的HRTF进行定制，成本太高，很难普及。因此，未来FRL希望开发一种通过照片和算法来推测人耳结构，从而预测HRTF的算法。

2）捕捉室内声学

接下来，为了解声音在空间中的反射规律，科研人员需要先了解房间的声学性质，才能提升虚拟声音的逼真感。为了验证效果，科研人员进行了一个区分虚拟与真实声音的实验，结果发现体验者几乎很难分辨耳机中的空间音频，与真实环境中的音响声音的差别，依靠猜测仅猜对一半。3D空间音频的效果足够逼真，以至于大脑将它识别为环境中的声音，体验者只有摘下耳机，才能确定声音是否来自于周围的音响。

Robinson表示：这种功能感觉就像是，你在打电话，但几乎忘记对方并不在你周围这件事，仿佛“穿越了”。

当体验者佩戴Rift头显和一副耳机时，空间音频也能提升虚拟空间的沉浸感，让她仿佛置身于一个新的环境。在一段demo演示中，FRL团队利用32个麦克风来捕捉会议室的声音，并合成结合空间方位信息的立体音频，聆听这种音频的人会不自觉去寻找虚拟的声音来源，临场感足够强。

如果将这种逼真的空间音频与逼真的虚拟头像系统Codec Avatar，以及3D重建、全身追踪、虚拟空间共享等技术结合，则更有望提升AR/VR的社交临场感，或是线上办公和娱乐的体验感。

AR眼镜的“增强听觉”

除了社交临场感外，FRL科研人员还希望结合AR与空间音频，并利用AI算法来增强人的听觉能力，从而获得更专注的信息、提升社交效率。

t01d122e320b4f3f18a.webp.jpg

FRL音频团队

据青亭网了解，FRL打造的音频系统会通过AR眼镜上的多颗麦克风来捕捉环境音，并通过分析使用者头部和眼球的运动，来推断这个人感兴趣的声音。接着，该系统将调高重点声音的音量，并降低其他声音，让你在混乱的声音环境中也能听到有效信息。

也就是说，该系统打通眼球追踪功能，智能读取你的意图，并对声音进行优化。在验证实验中，即使提升环境噪音，使用该系统的人也能清楚听到眼前的人的声音，并和他自然对话。但他看向电视时，则发现电视的音量变高了。实验采用市面已有的硬件，效果也足够好。

此外，这种方案不仅能提升人耳聆听的效果，还有助于降低对人耳造成的伤害。

AR眼镜的“麦克风降噪”

除了音频降噪外，FRL声音系统的麦克风还具备降噪和声音增强的功能。该功能基于FRL自研硬件，原理是采用近端波束成形方式，对接收的声音进行降噪。比如，当你在吵闹的夜总会里打电话，电话另一头的人能够清晰听到你的声音（放大你的声音或降低噪音），不受你周围的环境音干扰。这样一来，在你蹦迪的时候就不怕被对方听到自己周围的吵闹环境了。如果你在图书馆小声打电话，也能智能放大你的说话声。

t017e1add4ffed488bb.webp.jpg

为了验证效果，研究员Vladimir Tourbabin佩戴了一副配备了麦克风阵列的3D打印眼镜原型，在扬声器大声播放的环境中，也能轻松从杂音中分离出他的声音，与电话另一头的人实现自然交流。

未来，如果将麦克风降噪与AI助手结合，有望提升语音助手的灵敏度，即使你在大声的环境中也能小声语音操控，也能避免其他人的声音触发你的语音助手。

正在研发降噪耳机

目前，FRL音频团队正在研发一款特殊的耳机，它的特点是支持主动降噪，可与降噪麦克风结合。科研人员表示：该系统可覆盖20到2万Hz的声波。

t01954da88b83e396b3.webp.jpg

为了提升沉浸感，这款耳机系统将采用优化的人体工学，让你仿佛并未佩戴任何耳机，而是直接聆听周围的声音。至于实现的方法，应该是将耳机做得足够小巧。

除此之外，FRL希望通过增强音频系统来优化听障人士的听觉，帮助他们实现自然社交，融入到正常人群中。这种涉及听觉科学的研究方向，将会是FRL在AR眼镜领域的另一个探索，目前还有许多挑战需要解决。

对比其他AR空间音频方案

除了Facebook外，Magic Leap、苹果等公司也在AR与空间音频的研究上进行探索。相比之下，FRL的音频系统更类似于Bose Frame的降噪和声音增强功能，区别在于前者将对不同的HRTF进行优化，将大幅提升空间音频的准确性。同时，增强的麦克风技术也可以让你在各种场景中更自然聊天和社交。

t018167445c557ab05a.webp.jpg

苹果专利

另一方面，Magic Leap的空间音频技术更侧重于虚拟音频与真实环境之间的融合与互动，着重模拟声波接触真实物体产生的混响或回声，旨在帮助使用者感知物体的位置，以及声音来源。

而苹果在AR空间音频中的探索主要体现在专利上，其中一项专利涉及到HRTF的概念，不过苹果的方案是打造一个通用的HRTF值（最接近用户需求的数值），而不是像Facebook一样致力于定制化的HRTF。另一项专利中，苹果提出了一种根据头部追踪来实现空间音频效果的方案，特点是能够模拟双耳的立体声。

关于未来

目前，FRL开发的音频系统似乎是与AR眼镜独立的设备，不过未来他们计划将空间音频与AR眼镜集成，并用于AR导航等场景。届时，FRL计划将其与可共享的虚拟地图LiveMaps结合，比如将特定空间的声音范围信息加入到地图中，这样AI算法就能通过这些信息来提升音频体验。当你走进一家饭店，AR眼镜将识别到对话、噪音等周围正在发生的事件，并结合算法来智能降噪。

总之，FRL希望AR眼镜能够帮助人类更好的理解这个世界。尽管目前只是在初期探索阶段，但科研人员认为，5到10年后AR/VR将得到长足发展，而现在正是塑造未来的阶段。

帐号		自动登录	找回密码
密码			快速注册

[转载] Facebook打算用AR与空间音频赋予你“超级听力”

相关帖子