索尼黑科技专栏——AI声音分离技术

6814970 · 发表于 2021-8-5 21:30:50

索尼黑科技专栏——AI声音分离技术

建立在坚实技术基础上的创意娱乐公司

索尼，始终以“人”为本，在前沿技术领域不断探索进取。后疫情时代，索尼黑科技正式确立了3R战略（真实（Reality）、实时（Real-time）和远程（Remote），致力于为内容创作赋能，共同开创前所未有的娱乐表达方式。

“索尼黑科技”专栏将定期为您介绍最具代表性的索尼技术创新成果，探索如何“用创意和科技的力量感动世界”。本期将为您带来的是——AI声音分离技术。

从混合音源中分离出单个声音

声音分离技术凭借AI实现巨大飞跃

640.webp (25).jpg

声音分离是一种技术，它可以从混合的音源中提取出单个的声音。这原本被认为是一件非常困难的事，但在2013年，我们引入了索尼的AI技术，在这一领域更进一步。例如，在复原经典电影、消除智能手机的噪音、实现音乐流媒体服务的实时卡拉OK功能等方面已经取得了成果，我们期待未来它能应用到更多领域。

机器对人类能力的再现

Q

AI声音分离是一种什么样的技术？

光藤祐基：AI声音分离是一种技术，它可以从音频数据中去除不必要的噪音，只提取人声或其他特定乐器的声音。当人类在聆听一场多种声音混合在一起的表演时，可以分辨出各个乐器，或者在进行对话时，即使被一大群人包围，我们也能自然而然地专注于一个声音。这些都是人类独有的能力，而直到近来，计算机要做到这一点都还是极其困难的。有人将这项任务描述为混合两种果汁，之后提取其中一种。但是在过去的几年里，由于AI新方法的引入，这项技术有了极大的提升。

尤里奇：以前，人们试图在分离中加入大量的专业知识，例如关于混合过程的知识。此外，人们更喜欢简单的模型，因为它们可以从理论上研究它们。现在这种情况已经改变了，因为使用AI从数据中学习分离体系要好得多。声音分离应用于《阿拉伯的劳伦斯》的三个例子，展示了我们如何提取对话以及各种模拟声音的方法。

Q

在这个技术上，AI如何被使用？

光藤祐基：我们的声音分离是由AI来进行的，可以由人来教计算机完成这个任务。例如，一把吉他有一个特定的声音或频率，这一点可被神经网络学习到。无论混合了多少种声音，我们的AI系统都能够识别这些特征。这就像我们可以发现一个苹果，因为我们之前见过很多苹果。AI在声音分离的应用方式而言，无论是机械上还是概念上都大同小异。

尤里奇：神经网络在所谓的训练中学习识别音频特征。在这个训练中，神经网络会看到很多音乐--比我们一生中听到的音乐还要多--以及我们应该提取的目标声音。这些信息足以让神经网络学习声音分离。

让时间倒流并重新混音录制

Q

AI声音分离技术有什么特别之处？

光藤祐基：我们认为这是为数不多的可以让时间倒流的技术。例如，你可以把过去必须要将各部分录在一起的一段录音，拿来专门提取人声来重新混音，或者把所有的乐器的声音分开来重新组合成一个新的格式。

Q

我们听说这项技术也同样应用在电影中。

尤里奇：为了给看电影的人提供一个身临其境的声场，需要从多个不同的角度传递声音，重现一个3D音频空间。然而，经典电影的对白和音效都在同一个音轨上，所以我们能提取的声音和声场的沉浸感都是有限的。于是我们开始思考是否可以将这项技术延伸到电影中，在学习了音效（拟声）库之后，我们的AI系统能够成功地从母版中提取出单个音效。在上面的视频中也可以看到，在美国上映的《阿拉伯的劳伦斯》和《甘地》的4K超高清版本中，索尼影视娱乐公司的调音师用这项技术提取出声音，用杜比全景声进行重制，创造了一个沉浸式的声场。

账号		自动登录	找回密码
密码			快速注册

[资讯] 索尼黑科技专栏——AI声音分离技术

相关帖子

浏览过的版块