Riffusion 是一款免费的网络应用程序，它使用 AI 图像生成技术创作音乐

6753280 · 发表于 2022-12-23 11:27:37

Riffusion 是一款免费的网络应用程序，它使用 AI 图像生成技术创作音乐

一个名为 Riffusion 的新 AI 项目可以生成频谱图，根据您要求的音乐风格生成声音。

到目前为止，大多数读者都会意识到人工智能 (AI) 图像生成领域的最新创新。

AI 绘图 Stable Diffusion 通过从只需要提供随机图像与匹配提示文本，它就可以生成近似的图片。最近，这种技术也应用在了音乐生成领域 — Riffusion 是一款新的 AI 项目，它建立在最近兴起的AI绘图的基础上，但将其应用于声音。

missing-image.webp.jpg

Stable Diffusion 通过从随机噪点开始，并将随机图像与与提示词匹配的图像索引进行比较来实现图片的生成。应用程序选择其索引中与提示词匹配或接近的图像质量最接近的图像，然后重复此过程。每次迭代时，图像的质量越来越接近具有所需标签或文本提示的图像。

Riffusion的工作方式是首先构建一个索引的频谱图集合，每个频谱图都标有代表频谱图中捕获的音乐风格的关键字。一旦在此频谱图主体上进行训练，该模型就可以使用与 Stable Diffusion 相同的方法，干预噪声以获得与文本提示匹配的声波图具有相似质量的声波图像。
https://youtu.be/olkLVGcvib8

如果你的需求是 “摇摆小号爵士”，它将生成一个类似于与提示词相匹配的声波图。然后，应用程序将超声波图转换为音频，这样你就可以听到结果。

目前 Riffusion 得出的结果还很粗糙，但它确实证实了该过程确实能够产生与文本提示匹配的原始音频。目前该技术主要受限于声波图样本的数量较小，而用于图像的 Stable Diffusion 可是使用了 2.3 亿个图像进行训练。不只是数量，Riffusion 还会受到频谱图分辨率的限制，频谱图只能产生比较低保真的音频质量。

目前来看，该技术还无法在不久的将来使用人工智能产生任何传统音乐，因为这个过程没有考虑形式。音乐是声音的想法，可以及时组织以创造出的艺术结果。
t9JdaPV5TWhoLnAZpZbPeg-320-80.webp.jpg

不过，这种方法显示了 AI 的潜力。目前，它的任务是生成令人不安的样本素材 — 类似于 AI 图像生成的方式，即使在 6 个月前，也仅限于生成令人毛骨悚然的图像。这表明，凭借更大的数量和更高分辨率的频谱图，人工智能音频生成可能会在明年实现类似的质量飞跃。

Riffusion 是一款用于实时生成具有稳定扩散的音乐的应用程序。

在https://www.riffusion.com/about上了解它并在https://www.riffusion.com/上试用。

网络应用程序：https ://github.com/hmartiro/riffusion-app
推理服务器：https ://github.com/hmartiro/riffusion-inference
模型检查点：https ://huggingface.co/riffusion/riffusion-model-v1
此存储库包含模型文件，包括：

扩散器格式库
已编译的检查点文件
用于提高推理速度的跟踪 unet
用于 riffusion-app 的种子图像库
Riffusion v1 模型
Riffusion 是一种潜在的文本到图像扩散模型，能够在给定任何文本输入的情况下生成频谱图图像。这些频谱图可以转换为音频剪辑。

账号		自动登录	找回密码
密码			快速注册

[资讯] Riffusion 是一款免费的网络应用程序，它使用 AI 图像生成技术创作音乐

相关帖子

浏览过的版块