|
发表于 2020-5-26
|
|阅读模式
人工智能中语音合成技术的进步远比我们想象的要快& c! a( A4 D/ S3 b
人工智能让 Jay-Z 唱起了《哈姆雷特》,语音合成技术的进步远比我们想象的要快* z: h5 ]# ?& J ?- x7 C/ V6 Q! _
2 G L8 Y) t4 r2 S3 U( G7 k2 C语音合成的技术发展远比我们想象的要快。今年 4 月份 YouTube 曾经下架了一个视频,视频的内容是知名说唱歌手 Jay-Z 唱起了 “To Be, Or Not To Be ”。当然这不是 Jay-Z 本人之举,而是由语音合成技术利用计算机生成逼真的人类语音。2 A7 k" ^' g. j/ |% I% n
( p, }: s5 ?+ g# D/ y
& q7 X0 c3 @& v' w4 z% S: s, b# _4 j
, c. [3 `0 b- _
5 `/ V1 p$ N8 H% d0 N! v& Y
虽然 Jay-Z 的经纪公司 Roc Nation LLC 声称,这段视频 “非法使用人工智能来模仿我们客户的声音”, 但这不得不再次引发我们对于语音合成器技术的关注和思考。
6 `0 V# b% s: ~& |' i7 y$ ]6 S
( u6 _2 T" S' V6 G! ~3 a+ M0 z7 u
( J5 g% M( O1 ^6 B3 z; G
, X6 G% _5 |4 T9 g YouTube 链接:https://youtu.be/m7u-y9oqUSw8 x) `' i7 _4 ]) b8 f
* e* f; V0 z t4 P4 p0 {5 f) Y+ u5 F4 u1 a$ y$ c8 G# i, L
7 W3 Y( E' m, Q7 D# w* e语音合成技术,是通过神经网络,在经过人声示例和文本内容的训练下,只需提供文本即可生成接近人类的语音。除了上面的案例,下面还有一个知名说唱歌手 The Notorious B.I.G 用说唱的方式朗诵 “创世纪” 的视频:
$ t, F, _9 Y" b" W& ]( \! d$ j* d' n$ R8 k5 K" U
6 O/ T- M1 a, D
) Z+ ?+ x1 d+ g& J* O2 w0 ? YouTube 链接:https://youtu.be/_OsRR7HIICU
. m1 x( B; k. A3 `2 `- s0 F- D! e2 _& O4 T
1 _6 S' U# i% t
% ~, W: @2 N2 i, N我们都知道 Biggie 已经走了很久,这段音频显然不可能是本人为之,而语音合成生成的结果甚至能够达到以假乱真的程度了。通过这个案例,我们可以大致了解语音合成的步骤:Biggie 的声音由计算器合成,需要使用 Biggie 的人声片段以及对应的文本,让人工智能在音频与文本的对比下进行 “学习” ,明白每个字的 “念法”。经过大量的训练后,语音合成器就能够形成模型,然后只要输入文本,人工智能就会在模型中选取符合读法并进行合成。
( M8 T7 A( C m+ A
" w2 a, K! C0 l f( e `; X; V虽然这样的人声合成方式看上去并不是很智能,并且当前的语音合成器还有一些问题,比如复杂单词难以发音,无法进行实时生成,以及不能引导合成人声的情绪,但在普通情况下语音合成技术已经为我们展现了惊人的成果。( T, j Y& T4 z6 M1 t8 L
" l& I9 J4 \" N. v7 b语音合成去得到了如此重大的进步,一方面这项技术带来了更多可能性,比如可以让你与已故的 Biggie 一同合作;另一面它也可能带来法律问题,侵犯版权和艺术家的公开权。我们应该更加谨慎的对待这项技术,因为它很可能被用来造价,但我们也不能因此而否定这项技术所带来的正面价值。 |
|