人工智能中语音合成技术的进步远比我们想象的要快

discosp · 发表于 2020-5-26

人工智能中语音合成技术的进步远比我们想象的要快
人工智能让 Jay-Z 唱起了《哈姆雷特》，语音合成技术的进步远比我们想象的要快

语音合成的技术发展远比我们想象的要快。今年 4 月份 YouTube 曾经下架了一个视频，视频的内容是知名说唱歌手 Jay-Z 唱起了 “To Be, Or Not To Be ”。当然这不是 Jay-Z 本人之举，而是由语音合成技术利用计算机生成逼真的人类语音。

虽然 Jay-Z 的经纪公司 Roc Nation LLC 声称，这段视频 “非法使用人工智能来模仿我们客户的声音”, 但这不得不再次引发我们对于语音合成器技术的关注和思考。

YouTube 链接：https://youtu.be/m7u-y9oqUSw

语音合成技术，是通过神经网络，在经过人声示例和文本内容的训练下，只需提供文本即可生成接近人类的语音。除了上面的案例，下面还有一个知名说唱歌手 The Notorious B.I.G 用说唱的方式朗诵 “创世纪” 的视频：

YouTube 链接：https://youtu.be/_OsRR7HIICU

我们都知道 Biggie 已经走了很久，这段音频显然不可能是本人为之，而语音合成生成的结果甚至能够达到以假乱真的程度了。通过这个案例，我们可以大致了解语音合成的步骤：Biggie 的声音由计算器合成，需要使用 Biggie 的人声片段以及对应的文本，让人工智能在音频与文本的对比下进行 “学习” ，明白每个字的 “念法”。经过大量的训练后，语音合成器就能够形成模型，然后只要输入文本，人工智能就会在模型中选取符合读法并进行合成。

虽然这样的人声合成方式看上去并不是很智能，并且当前的语音合成器还有一些问题，比如复杂单词难以发音，无法进行实时生成，以及不能引导合成人声的情绪，但在普通情况下语音合成技术已经为我们展现了惊人的成果。

语音合成去得到了如此重大的进步，一方面这项技术带来了更多可能性，比如可以让你与已故的 Biggie 一同合作；另一面它也可能带来法律问题，侵犯版权和艺术家的公开权。我们应该更加谨慎的对待这项技术，因为它很可能被用来造价，但我们也不能因此而否定这项技术所带来的正面价值。

帐号		自动登录	找回密码
密码			快速注册

[转载] 人工智能中语音合成技术的进步远比我们想象的要快