新研究通过信号处理和感官需求者将声音分解为 3 个基本组成部分

28134280 · 发表于 2023-11-6

对谐波现象的探索始于古巴比伦人，他们利用谐波音序绘制星图。

从这些原始的起点出发，我们来到了 18 和 19 世纪的欧洲，在那里，亚历克西斯-克莱沃（Alexis Clairaut）、约瑟夫-路易斯-拉格朗日（Joseph Louis Lagrange）以及约瑟夫-傅里叶（Joseph Fourier）的工作真正拉开了序幕，他们不仅用数学数字模拟了天文测量（如Alexis Clairaut对月球轨道的计算），而且还模拟了音乐问题（如Joseph Louis Lagrange对振动弦的计算）。

傅里叶的重要贡献在于提出，任何任意的声音，无论多么复杂，都可以用 "傅里叶变换 "来表示，或分解成一系列正弦波（和余弦波）。

在数学中，变换的其他例子包括形状的翻转或旋转，但傅立叶变换（如果我们能看到它的话）更像是一个棱镜，它将输入的声音分割成若干不同的频率，就像棱镜将白光分割成若干不同的颜色一样。1965 年，傅里叶变换使计算机分析和处理复杂信号成为可能，成为未来声学研究的重要基石。

时间来到了 2023 年，博士研究员 Leonardo Fierro 和 Vesa V?lim?ki 教授将之前的研究提炼为人类感知的新的复杂声音模型。

有一些声音，如管乐器、呼吸声、任何带有大量非谐波噪音的声音，仅用谐波音序来建模，需要数百个微小的正弦波来复制信号，这个是很棘手的。正弦波和可变噪声相结合的双分量模型可以更真实地模拟这些声音，但理想情况下，还需要添加称为 "瞬态 "的第三个分量（小的咔嗒声），尤其是在模拟人类语言时。

芬兰阿尔托大学声学实验室的莱昂纳多-菲耶罗（Leonardo Fierro）和维萨-韦利马基（Vesa V?lim?ki）意识到，人类如何听到这三个成分（单独的咔嗒声、口哨声和嘶嘶声）对声音建模至关重要。长时间的咔哒声可能会被视为铃声或嘈杂的声音；相反，短的光点可能会失去音高感。

https://www.aes.org/tmpFiles/elib/20231106/22152.pdf

该团队的优化模型以如下方式利用了这一洞察力：在任何时刻，声音要么是正弦波，要么是瞬态波，而不能同时是正弦波和瞬态波。噪声可以与正弦波或瞬态波自由混合，作为一种平滑、模糊的存在，产生其他成分无法捕捉的细微差别。

Leonardo Fierro说："这就像找到了拼图中缺失的一块，将之前无法拼合的两个部分连接起来。

在听力测试中，根据听众的反馈，这种新方法在分解大多数声音时都胜出。

这项技术的明显用途包括重新合成、无失真压缩（通过减少瞬态）和新的高质量时间拉伸算法：

Vesa V?lim?ki说：

"新的声音分解方法为声音处理带来了许多令人意想不到的可能性，目前，我们的主要兴趣是降低声音的速度。例如，在体育新闻中，慢动作视频总是无声的。究其原因，可能是目前的慢放音频工具音质不够好。我们已经开始开发更好的时间尺度修改方法，使用深度神经网络来帮助拉伸某些成分。"

然而，作为一个患有选择性声音敏感症（通常是自闭症的一种特征）的人，另一个用途让我印象深刻。目前的降噪耳机利用小型内置麦克风记录环境噪声，将其相位反转（我猜是通过倒置或添加小延迟），然后将反转信号混合到你正在聆听的音乐中。

这种方法非常聪明，但也有一些局限性。它对频率较低的背景噪声效果最好，而对频率较高、随机性较强的噪声（如繁忙的咖啡店里的聊天声）则难以奏效。

于是我在想，如果这种新算法可以由用户进行训练，了解哪些声音是可以忍受的，哪些声音是令人恼火的，然后只消除这些声音，那会发生什么呢？这需要克服一些物理上的限制，你不会想整天都戴着大耳机（由于耳罩隔音，目前这种耳机是最有效的），但这种可能性是值得探索的！

出处：https://sonicstate.com/news/2023 ... 3-basic-components/

帐号		自动登录	找回密码
密码			快速注册

[资讯] 新研究通过信号处理和感官需求者将声音分解为 3 个基本组成部分

相关帖子