|
人工智能中语音合成技术的进步远比我们想象的要快
. f9 ?+ C7 E8 M+ ^( G+ K `9 ~0 d人工智能让 Jay-Z 唱起了《哈姆雷特》,语音合成技术的进步远比我们想象的要快
O# H- N: x( K3 f0 U$ h/ @ - }8 a/ T1 x: M8 q
语音合成的技术发展远比我们想象的要快。今年 4 月份 YouTube 曾经下架了一个视频,视频的内容是知名说唱歌手 Jay-Z 唱起了 “To Be, Or Not To Be ”。当然这不是 Jay-Z 本人之举,而是由语音合成技术利用计算机生成逼真的人类语音。
5 k: b$ `0 J4 ^- X8 ^: _
7 m6 \0 E6 g7 C. M; I
" a& ?; R4 q* m! |
- X' G# M' t; e6 C! |; Z4 a g
+ Z- [0 A. R) D8 x: j* ]* P
虽然 Jay-Z 的经纪公司 Roc Nation LLC 声称,这段视频 “非法使用人工智能来模仿我们客户的声音”, 但这不得不再次引发我们对于语音合成器技术的关注和思考。" f" h: R* }7 C
9 y4 V2 ^8 z1 r7 x; A @
U: \6 Z: {8 `8 d% N2 x. D& }
`" c4 ?* P$ L* }8 y; {7 | YouTube 链接:https://youtu.be/m7u-y9oqUSw0 m3 G2 M# A# j( o) ^7 m% q
5 y- N1 H* A6 K5 n9 m; B$ D6 T
9 j& e- d6 ]/ P: _" s. o9 ^) l
4 \% n( f# c, z/ D# B语音合成技术,是通过神经网络,在经过人声示例和文本内容的训练下,只需提供文本即可生成接近人类的语音。除了上面的案例,下面还有一个知名说唱歌手 The Notorious B.I.G 用说唱的方式朗诵 “创世纪” 的视频:/ y' z; N% T" f. ^
$ g0 o1 `7 e, U1 C& h; g+ V. v) a2 d+ G; I2 ~, w: r ^( b- l
9 L& Q0 b+ r* T: ]- [, c- S0 ]
YouTube 链接:https://youtu.be/_OsRR7HIICU
9 G5 ?$ W% ], z; q7 s0 d
& U: \3 ~$ `# \! r
0 T, F) ]. X; o0 R1 ~6 ^& P9 B; E0 c+ ^' m. f
我们都知道 Biggie 已经走了很久,这段音频显然不可能是本人为之,而语音合成生成的结果甚至能够达到以假乱真的程度了。通过这个案例,我们可以大致了解语音合成的步骤:Biggie 的声音由计算器合成,需要使用 Biggie 的人声片段以及对应的文本,让人工智能在音频与文本的对比下进行 “学习” ,明白每个字的 “念法”。经过大量的训练后,语音合成器就能够形成模型,然后只要输入文本,人工智能就会在模型中选取符合读法并进行合成。
; g1 U- e. a1 N5 z
: `6 M2 y) M* N& R3 f虽然这样的人声合成方式看上去并不是很智能,并且当前的语音合成器还有一些问题,比如复杂单词难以发音,无法进行实时生成,以及不能引导合成人声的情绪,但在普通情况下语音合成技术已经为我们展现了惊人的成果。
+ p, q) W4 y: A8 L$ S9 `+ j. i
语音合成去得到了如此重大的进步,一方面这项技术带来了更多可能性,比如可以让你与已故的 Biggie 一同合作;另一面它也可能带来法律问题,侵犯版权和艺术家的公开权。我们应该更加谨慎的对待这项技术,因为它很可能被用来造价,但我们也不能因此而否定这项技术所带来的正面价值。 |
|