|

楼主 |
发表于 2005-7-24 22:03:00
|
显示全部楼层
潜在空间的理想特性可以总结如下:
+ D, T: v& J9 n% v. N
" H+ t6 b- ^0 a Z9 s* ~1.表达性(Expression):任何真实的样本都可以映射到潜在空间中的某个点并从中进行重构。! T& v6 a8 W5 U7 G& t3 j7 a
) y6 y K. ~& w+ @& m
2.真实感(Realism):这个空间中的任何一点都代表了一些实际样本,那些不在训练集中的样本也涵盖在内。
! h9 g/ j: ] \/ d8 q5 P4 z9 ^1 V
; r5 U% u4 S: i# h& C0 P3.流畅性(Smoothness):潜在空间附近点的样本具有相似的性质。6 L& c0 G$ E" _, a+ @6 L
& x) a3 A( [+ P) G7 m( M5 L) ^$ f这些属性类似于艺术家的调色板,她可以在该调色板上对颜色选项进行探索和混合,从而进行创作,而且更像调色板的一点是,这些属性可以增强创意。例如,由于Expression和Smoothness,一个潜在的空间,比如由SketchRNN学习的笔画序列,使得你能够通过在潜在空间中的点之间的插值以进行重建和融合:
$ _& O3 [! h$ n8 H) t# {8 H/ M8 ?. T. [
- m+ P+ e+ A7 k3 H$ @1 |9 t' k
2 h0 i, W& d% S/ s% u: p0 ]Realism使得你能够通过对潜在空间中随机选取的点进行解码,从而随机抽取一些与你的数据集中样本相类似的样本。我们在上面演示了这种旋律,并在这里用SketchRNN示范一下:
1 K* \4 K/ b; k, W: C# \$ I
7 t. R. u0 m" m. F) p
/ z5 A, M% _- D0 {+ `* P& p
$ F2 w# c/ S9 W: {- k3 D我们还可以使用潜在空间的结构来执行语义上有意义的转换,例如“潜在约束”或“属性向量算术”。后一种技术利用了这一事实,即潜在空间可以“解开”数据集中的重要特征。通过对与共享给定质量的数据点集合相对应的潜在向量进行平均(例如,猫脸的草图),我们获得该属性的属性向量(“猫脸向量”)。通过从潜在代码中加入和减去各种属性向量并使用我们的模型进行解码,我们可以获得添加或删除相关属性的输出。再次,我们用SketchRNN来说明这一点:
2 Y0 S" ~# c% [$ q6 l; j: \1 l- j
( M" O, r3 @( a1 y, O( E, Y/ L* h6 A- w5 q, u" m
8 o; f8 F+ A) u# }如何学习一个潜在空间
* f1 u1 H$ ?( N3 G3 F' Q9 _
; u" C n; Z8 V& C9 S( q1 J有许多不同的模型能够学习潜在的表示,每种模式都与我们所期望的三种属性有各种各样的折中。% U5 s" ^" b* m. E! M. B6 j9 W( A
0 c, y& e% O. T
这样的模型的一种被称为自动编码器(AE)。自动编码器通过学习将每个样本压缩(编码)为数字向量(潜在代码或z),然后从该数字向量重新生成(解码)为相同样本,从而构建数据集的潜在空间。AE的一个关键组成部分是通过使向量具有比数据本身更小的维度而引入的瓶颈,这迫使模型区学习一个压缩方案。在这个过程中,自动编码器以理想的形式提取整个数据集中通用的性质。NSynth是一个自动编码器的例子,它在音符的音频中学习了音色的潜在空间:
. q& G2 L3 N: _! V* h# u( W/ a+ x/ X# S$ k
* M7 v/ |9 y, T1 o% Z- H% A# t/ u- j
2 }& k* v6 W0 K& M
这种类型的自动编码器的一个局限性在于,它的潜在空间中通常存在“漏洞”。这意味着如果你对一个随机向量进行解码,它可能不会产生任何实际的结果。例如,NSynth能够进行重构和插值,但由于这些漏洞,它缺乏真实性和随机采样能力。
9 g/ m3 W7 i4 i3 e. o' {1 b; i8 I% v6 G9 q! ]& ~, F3 E
另一种加强瓶颈限制的方式是使用所谓的变分损失(variational loss)。它不是不是限制向量的维度,而是鼓励编码器产生具有预定义结构的潜在代码,例如来自多变量正态分布的样本。然后,通过构造具有这种结构的新代码,我们可以确保解码器产生一些具有实际意义的东西。
( W( R+ O% u7 W7 S1 |# u, D/ s# X# |; Q" g
SketchRNN是一个变分自动编码器(VAE)的例子,它学习了一个用笔画序列表示的草图的潜在空间。这些笔画由双向循环神经网络(RNN)编码并由单独的RNN自动解码。正如我们上面看到的,这个潜在空间具有我们所需的所有属性,部分归功于变分损失。/ n9 b: I- Q6 [. J& G+ F
8 {* ]- k: @% t' z
循环潜在空间
0 t4 x7 l4 t, p9 D0 H
) q; K3 N3 s5 {; N通过Music VAE,我们开始使用与Sketch RNN非常相似的体系结构以学习包含所有属性在内的旋律片段(循环)的潜在空间。我们在这里用一些例子来展示我们的结果。5 r. k2 w! U y7 \
& R. ~0 H H* T& |$ F首先,我们将展示我们在两个序列间的变形能力,正如我们所做的那样,中和它们的属性。 尽管我们展示了一个混合两首旋律的样本,但我们前期做了一些更有难度的事情,进而将bassline转变为旋律。4 B& U6 J# r1 ~
6 b; L- o( L1 {
Bassline音频连接:The red segment is the first step of the interpolation, and the purple is the final one. Each segment is 4 seconds (2 bars).
- h* I s+ m' Q9 Z# e; c+ \' D& \$ \7 F% A# ~+ W+ q
$ l$ i4 G7 a& E& G, Y& S1 w
2 N9 y w6 W5 A% u7 C- }
我们首先尝试在不使用MusicVAE的情况下,通过对两者之间的音符进行采样,类似于音频中的交叉衰减(cross-fading),来流畅地将bassline转化为旋律。你可以在下面听到这个朴素插值的结果。第一部分(黑色)是bassline,后一部分(黑色)是旋律。红色部分是插值的第一步,紫色部分是插值的最后一步,每段为4秒(2节拍)。& d6 s" E; H$ f6 Y7 v
) G3 W- p8 P1 D
3 ]1 }5 o; i6 y" }. r尽管开始(红色)和结束(紫色)部分完全匹配原来的序列,但中间那部分是无效的旋律和bassline。附近确实存在类似的音符,但较高阶的音质丢失了。输出空间有表达性,但缺乏真实感和流畅性。另一方面,下面是通过MusicVAE潜在空间的插值进行的变形。
: t$ H" T5 i/ k, `$ {: G) F! h7 A- Q' _% M3 [
5 m3 I5 d( J$ M* `! F( K7 q" A& q& K0 o) o
1 d5 Y1 u4 B E! ~( S4 @& H) w* L8 H# F* Y: p; p
需要注意的是,中间序列现在是有效的,它们之间的转换是流畅的。中间序列也不像像之前那样局限于原文件中的音符,而在端点的上下文中选择音符使得整体更具音乐感。在这一样本中,我们完全满足了表达性、真实感和流畅性的特性。$ ^0 X( m g% M' t1 [
8 r4 N3 g9 P* x我们还在鼓循环中训练了这种架构,取得了类似的结果。6 t8 P7 x6 R1 j
4 X) o7 o& L3 d' l1 ]
9 B+ i5 R9 l6 Z8 |$ D; J1 N
7 E# I6 R2 S- I. ?" r' m& I) K长期结构$ M1 Q" T# g7 X, m
$ ` i+ g& F2 O
其中一种位置语言模型(如MelodyRNN和PerformanceRNN)的不足之处在于它们产生的输出通常缺乏连贯的长期结构。正如我们过去用SketchRNN所展示的那样,潜在空间模型可以编码长期结构以生成完整的草图。
/ S8 Y+ T, K6 \! q$ |
& ]$ g+ t1 B3 _2 y4 N/ x% Z0 z然而,要想在长音乐序列中获得类似的结果,通常要有比草图更多的步骤,我们发现不能依靠相同的体系结构。相反,我们开发了一种全新的分层解码器,能够从单个潜在代码生成长期结构。
- q/ G/ c9 t A* n4 i" K6 E5 d% Y! Y% U
5 ] A/ |$ F/ o" C5 B( ?; D l6 n% q# }
我们不是使用我们的潜在代码来直接初始化音符RNN(note RNN)解码器,而是先将代码传递给一个“导体”RNN,该RNN为每个输出节拍输出一个新的嵌入。然后,音符RNN基于嵌入而不是潜在代码本身,独立生成16个节拍中的每一个,然后我们从音符解码器中进行自回归采样。
8 U/ n2 c( E3 v! r) Y/ ^. C# `' L% n2 t: ]' n3 \
我们发现这种条件独立性是我们体系结构的一个重要特征。由于该模型不能简单地回归到音符解码器中的自回归以优化训练期间的损失,所以它更依赖潜在代码以重建序列。
& N) N. X! y/ T& r! j- E5 I# i; C$ Y/ S% P+ B/ k# v4 R' X
使用这种体系结构,我们可以像以前一样进行重建、采样和平滑插值,但现在需要更长的时间(16节拍)旋律。在本文中,我们将样本旋律A(顶部)与B(底部)混合在一起。0 }' C6 L& C' h: B2 L* {4 S
4 l/ N. @% @" _ r8 W
8 q! f, I% }1 N3 D; {" |
2 T) o% B0 X1 ?, o1 m+ i3 a d( {% A0 q
/ [' p1 \. E' z/ E3 j: s" s# ~3 _8 f2 T5 ^' r
4 x& q a% J9 e- y# Q) @: R
* f* [3 q* }# ?! ]' n- R
! l1 t* n3 W5 o此外,我们可以使用属性向量算法(上面提到的“猫脸向量”)来控制音乐的特定品质,同时保留音乐的许多原始特征,包括整体结构。在本文中,我们展示了我们通过在潜码中添加或减去一个“音符密度向量”来调整旋律中音符数量的能力。- _* m9 d: d% u8 e9 P
& d8 x- ]3 g' v
. v. J( S0 D$ e$ i
4 X4 q7 k- U! v( F3 W
% \$ m2 r: `8 a
- Z% [) o, B9 w! S
7 n* p% c' w3 ~% d- b `
7 R' V$ T) J" W+ A
: X+ C5 n/ w( E" w2 E需要注意的是,我们并不是通过简单重复音符来增加它们的密度。相反,Music VAE增加了琵琶和其他与音乐相关的用户体验。
+ \4 b4 C% A) w/ F9 a/ H- d8 [8 ?- L0 M* ]2 I) }
重新组建乐队
# S& `+ \+ U' W1 H8 z8 ` ]- K; a( D$ y
我们可以用短期和长期结构来模拟单个乐器,我们调整了我们的分层架构以对不同乐器之间的相互作用进行建模。在这些模型中,我们将嵌入传递给多个解码器、每个乐器或每个轨道,而并非是将嵌入从导管传递至单个音符解码器。
4 o; R4 {8 T, c* Q" {* J) f; K+ ]% _+ g+ w/ s1 A. |
通过在潜在空间中对简短的多乐器配置进行表示,我们可以完成所有与单曲操作相同的操作。例如,对于8种完全不同的乐器,我们可以在两个1度量配置之间进行差值。下面是由模型选择的乐器,在潜在空间中随机点对之间的两个插值合成的音频。每个点代表2秒(1节拍)。
# f# S2 F' K+ J- N
( x: V: J% e8 D+ V3 @/ Y* z
0 t2 c! k; G+ m m9 r' T1 @" N/ z
T* P& H3 ~# B* E- A' K5 J. @& c9 e我们还可以将跨节拍的层次结构,重新添加到模型3的标准乐器(旋律、低音、鼓声)中的16个节拍。我们“trio”模型中的这个样本播放列表(https://www.youtube.com/watch?v= ... 2N7HIMQnZc0SMFk99Yl)证明,它已经学会了如何在长时间帧内模拟三种乐器之间的交互作用。
$ T. _& i, e3 ^( N4 v0 r4 F0 t+ }" {# \
音乐家的工具
) [0 u+ U' Q* H1 A- Q. w
7 v! k6 K; H: e可以说,我们是刚刚触及对于音乐家、作曲家及音乐制作人来说,由MusicVAE所学习的音乐调色板的可能应用的表面,并且已经开始与开发人员合作,让尽可能多的人访问这些调色板。. r V' Z& X/ a$ M6 }/ M3 z3 A/ X2 ~
4 o# l3 N. K7 k7 c8 a
4 H0 y. C6 o! h: L
" q* e. G; x" e( r# Z0 x' \- [
第一个样本是由谷歌创意实验室的技术人员制作的旋律混音器,可以让人轻而易举地在短旋律循环之间轻松生成插值。; l0 t" z1 e' i. j% u# N: n! B: K
c2 f f, N$ j9 E
, ?7 ^: _$ i& P! p) F3 f6 R$ L: m3 [. M! P
第二个样本是Beat Blender,也是由谷歌创意实验室开发的。你可以使用它来生成鼓点的二维调色板,并通过潜在空间绘制路径,以创建不断变化的节拍。4个角可以手动编辑,替换为预设或从潜在空间采样以重新生成调色板。9 ?( t4 P- p, v: ]2 H
/ Z1 R! d+ D/ m8 n第三个样本是谷歌Pie Shop的潜在循环(Latent Loops)。Latent Loops让你可以在调整到不同音阶的矩阵上勾勒旋律,探索生成旋律循环的调色板,并使用它们对更长的乐曲进行排序。' T& c+ _" d) b1 t
5 n( ~/ q8 r- |6 m) N. ~. r
有了这个,音乐家就可以用这个界面创造出完整的旋律线,然后很容易地将它们转移到他们的音频工作站(DAW)上,进行创作。 |
|