GPU Audio -SDK模块
该模块于2025年
音频开发者大会首秀,可为现场演出、音乐制作等音频应用提供低延迟声源分离。其采用经L-Acoustics验证的HSTASNET模型,融合时域与频域数据实现超高分辨率、无伪影处理。
2025年在 Bristol音频开发者大会上,我们展示了基于深度学习的音乐解混音技术,实现了真正的实时音频分离 SDK 模块,基于L-Acoustics研发的HS TasNet(混合频谱时域音频分离网络)模型开发,这款新型GPU音频SDK模块融合频谱域与波形域数据,提供超高分辨率、自然的音频处理的技术。为现场演出及众多应用场景开辟了实时混音与降噪音频流的巨大潜力。
HS TasNet(混合频谱时域音频分离网络)融合频谱域与波形域技术,L-Acoustics指出其展现了实时低延迟音乐应用高效分离的潜力。白皮书建议延迟为23毫秒,而通过GPU 技术已将其缩短至仅512个采样点,且处于早期开发阶段,但仍能满足实时处理需求。
部分数据:
- CPU版本(使用Eigen)实时因子(RTR)仅为0.18倍RTR
- Meta的PyTorch(GPU)仅实现0.58倍RTR
- GPU Audio实现6.95倍RTR,性能提升约 12 倍。
该技术无需依赖历史数据(区别于 Meta Demucs v4),且支持单设备与多设备灵活扩展,仅增加数毫秒延迟,用户借助此 SDK 可实现近 7 倍实时处理效果,为实时混音、音频降噪等场景开辟新可能。该 SDK 模块免费提供下载,但商业使用需获取授权,目前已在 GitHub 页面开放 Windows 和 Mac 版本下载。
这些数据在单设备和多设备环境下均可扩展,延迟仅需几毫秒;该技术无需依赖历史数据(相较于Meta Demucs v4),用户可通过SDK重构实现近7倍的实时处理能力,为实时混音、音频降噪等场景开辟新可能。
更新版SDK现已登陆Github页面,支持Windows与Mac系统。
该SDK可免费下载,但商业使用需获取许可。https://gpu.audio/sdk
文章出处: https://sonicstate.com/news/2026/02/02/real-time-source-separation-on-gpu/
音频应用欢迎大家评论
暂无评论,快来抢沙发!