|
3 T a; k/ z& j' y
! w4 M \0 t8 M3 X' J2 v
2 L4 L: q/ Z7 k* [ 图形和人工智能巨头 NVIDIA 宣布了一种名为Fugatto (Foundational Generative Audio Transformer Opus 1 的缩写)的新型AI模型。该模型由一个国际研究团队开发。与目前市面上现有的AI 音频/音乐制作工具不同的是,Fugatto 具有更加多面和灵活的创造力,让你能以文本和音频输入的方式创造声音、对话和音乐,它被称为“世界上最灵活的声音机器” ,一举击败了 ElevenLabs 和AI音乐制作人 Suno 。
/ v+ e/ O8 _, G1 {: v/ Q- a$ |
8 Z5 v, l; \9 r# P+ I: ~) Q* O8 L8 O
" A* ~0 ] C5 D4 n6 z. ~借助此模型,将见证AI操控和转换声音和音频的全新范例。它远远超出了将文本转换为语音或根据文本提示制作音乐的功能,并且提供了一些我们从未见过的真正创新功能。4 J9 ~5 L# i Y7 f3 {
, i) M4 J; p: M5 e4 S$ ?, J0 {
- V9 r0 D9 K4 g2 Y0 w$ H2 MFugatto 目前还无法尝试,因为它只是一篇研究论文,但它未来很可能会提供给一个或多个 Nvidia 合作伙伴,然后将开始看到声音开发方式的一些重大变化。
& d+ K W* F. @$ d1 j
; C9 v9 I2 E; J5 y( L- g5 ], t- ~1 R1 ?! H
Nvidia Fugatto 如何工作?% t1 Y7 [ k- K8 j3 |. U$ ~
# \! y6 y" \- ~5 {6 K
Nvidia Fugatto 的关键在于它能够展现新兴能力,该团队将其称为 ComposableART。这意味着它可以通过以新的方式将不同的能力组合在一起,完成它未经训练就能完成的事情。
! ^1 g: @* F d( Q. ]8 I1 l" t$ Q" X
发布研究论文的作者描述了该模型如何制作出愤怒大喊的大提琴或咆哮的萨克斯管。这听起来可能很傻,但该项目主页上的一些演示非常令人印象深刻。& j9 b: u: X7 K: q
4 g3 g8 R9 B F) B; j
例如,能够立即将语音转换为不同的口音和情感强度,或者在现有音乐表演中无缝添加和删除乐器。8 y; z% @ q" g% B5 H6 X
& q% ^, L1 `" ?
我们已经从其他模型(例如 OpenAI 的 Advanced Voice、ElevenLabs SFX 模型或 Google 的 MusicFX 实验)中看到了一些这样的情况,但没有在一个模型中看到过。+ K; i2 J) K2 o/ |, }
5 A" `3 Q3 X/ @Nvidia Fugatto 可用于什么?
- d! f7 t# T* @% N+ h2 j$ h& ]5 a+ M1 s) S" _5 A, G
该团队提出的最引人注目的例子之一是即时生成复杂的音效,其中一些是全新的或古怪的。
; h4 R9 q+ |# p2 f1 o( | h. ^7 Z1 [
电子游戏开发商和电影行业的从业者听到这个消息,要么垂涎欲滴,要么紧张不安:几乎任何类型的音景都很快可以通过按下按钮由人工智能生成。
0 E) \) \) s& ~
# W: ^0 Q* l. N& P8 d1 F2 u0 z0 j' W6 K4 A# ^& C* u+ _3 z, y
该模型建立在研究团队之前在语音建模、音频声码和音频理解等领域的工作之上。所有这些技术的强大功能都是通过一个具有 25 亿个参数的模型来实现的,该模型在大量 Nvidia 计算机处理器上进行了训练,并在一组包含 32 个 NVIDIA H100 Tensor Core GPU 的 NVIDIA DGX 系统上进行了训练。
* R$ Q% M5 ?+ h2 D9 t% {! R* {; [* u- i0 {; N g) y: Q/ O
和许多早期研究演示一样,我们可能还需要一段时间才能看到成熟的产品投放市场。制作一段四秒钟的雷雨或机械怪物的音频片段是一回事,让它在现实世界中可用又是另一回事。0 R. g. r0 w, a
/ o% u* c. v+ r/ k1 d0 ~! d" m1 N& j然而,毫无疑问的是,这种新模型背后的技术表明,机器掌握另一种艺术形式的能力已经跨过了一座重要的桥梁。这可能是我们第一次看到这种类型的人工智能代际力量,但肯定不会是最后一次。. r) z. c: ^+ b4 A% M w. ^9 d. J
' F9 e9 b; E2 |- e8 ~
NVIDIA 应用音频研究经理Rafael Valle表示:3 }( {2 G. a: Z! J5 ~3 L+ M; e, M- a. d
' x9 b- n0 H9 z“我们希望创建一个能像人类一样理解和生成声音的模型,Fugatto 是我们迈向未来的第一步,音频合成和转换中的无监督多任务学习将根据数据和模型规模而产生。”
. S: o# ?7 A- D0 J( M, {/ Z+ n$ }2 Y: w& e0 l6 I7 }8 {' U
通过这个演示,我们似乎可以看到未来音频处理方式可能存在的转变,基于文本和语音命令或许会成为音频制作和设计领域的重要组成部分。这类软件将会变得更加智能,而且工作流程也会随之发生一定的变化。某些 DAW 和插件制造商势必将会在新一代的产品中逐渐加入这些功能以形成新的卖点,毕竟以传统硬件为蓝本的合成器、音效插件市场已经非常饱和。而且尤其对于新手来说,那些不知所以的参数和纷乱的旋钮还是有些太复杂了。这让很多用户都把大量的时间花在学习软件之上了。其实现有的音乐制作流程,是随着笨拙的硬件发明历史而被逐渐固定下来的。如今人类已经走到了无法回避的 AI 时代!用简单、直接一点的提示语来参与工作难道不好吗?经典固然有其美,但少折腾一点也有其便,何况创作最需要的灵感。
7 H5 R8 x; n0 {1 l. n
# g( k* k4 U- @( K; l2 m8 S$ d# J3 [音乐制作人兼 Nvidia 初创加速计划成员 Ido Zmishlany 表示:
0 s8 Y% b M4 U. B' a
, ]: G. F& r e$ @" T“音乐的历史也是技术的历史。电吉他给世界带来了摇滚乐。当采样器出现时,嘻哈音乐诞生了。借助 AI,我们正在谱写音乐的新篇章。我们有了一种新乐器,一种制作音乐的新工具,这非常令人兴奋。”$ Z& `7 e- z1 c H# p
8 ^! M, ?) f6 A5 y k$ ]% P8 T9 [4 n2 @) Q% b& u. |7 h
( f& i ^) h `0 q8 A0 L$ r7 K* }官方视频地址:https://youtu.be/qj1Sp8He6e4. ]+ _. x6 x. T* y
# R2 z9 ~ g. ~7 w: t0 E
/ {, O" z. v V2 M5 Q' H- |* J
) U- {, s/ Q( k# R7 b官网: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/- y( w* Z8 m8 p! {' [3 t- l
# H4 u! R' m2 [; R4 r
$ c) `! b6 ?+ O* A |
|