人声合成技术在音乐中的应用

tea335317781 · 发表于 2016-6-29 09:25:27

最近，英国音乐人Imogen Heap的一首歌《Hid  and Seek》引起了全世界的注视。这支被誉为“将合成人声的使用发展到了极限”的歌曲被广为流传。为什么Imogen Heap的人声合成音乐会有如此大的影响和划时代的意义，主要表现在：

(1)它改变了现代音乐的创作思维；
(2)改变了传统意义上音乐的演奏方法；
(3)歌手现场演出的形式发生了本质的变化；
(4)用技术去表达艺术感觉，用人声和合成人声互动，开拓了一种崭新的音乐表现方式。

于是，人声合成器以全新的概念再次走到了音乐制作舞台的最前面。这首完全用最新的、现场的人声合成技术编配和演唱的歌曲所表现出的独特的魅力在于，观众既可以感受到无伴奏清唱的纯净，又能听到人声配器和声进行的情感色彩，犹如将人置身于一片寂静之中，面对镜子中的自己，看到回忆的点滴。合成人声好像是机器在演唱，并没有太多感情倾向的表达，但那种非常融合的和声的包容感和特殊的效果，却给人一种非常新鲜和宁静的效果，给人特别、生动和舒服的感觉。

1 人声合成技术简介    上面提到的人声合成技术到底是一种什么样的技术呢？在现代的音乐中它是怎样应用的呢？完全使用人声合成进行和声配乐及现场表演和演唱是怎样做到的呢？

现以这首作品为例，将它剖析开来，展现给大家现代人声合成在音乐上应用的技术原理和效果，以及在电子技术飞速发展的今天，人声合成技术带给音乐制作及创作的变化，给专业录音及音响工作者以启发。

人声合成器其实是声码器的一种应用，最早是通信领域开发的一项技术，所以，人声合成技术在早前少有如此出彩的机会。早在20世纪30年代，世界上第一台人声合成器是伴随着关于减少电话频段的研究而诞生的。一直到20世纪70年代，伴随WendyCarlos和Robert Moog制作出第一台为音乐制作而专门打造的人声合成器的诞生，人声合成技术才开始陆陆续续地在音乐制作中崭露头角。

当时，由Wendy Carlos负责制作的Stanley Kubrick的电影《A Clockwork Orange》的原声音乐采用了大量声码器合成的音色。之后，德国的电子乐队Kraftwerk也在他们很多作品中运用了合成人声的效果。70年代后期开始，人声合成器开始进入流行音乐。例如，Electric Light Orchestra, Pink Floyd, Styx, Daft Punk,Rockets，Myth，Madonna等音乐人都在其音乐作品中使用人声合成效果。但那时使用的也都局限在音乐的某个段落或者某个部分使用，合成人声只是作为效果使用。

如今人声合成器已经有了很大的发展。尤其是随着软件和插件形式的声码器的出现，对于合成人声的制作和多彩多样的应用也变得越来越多和更加方便。

2 人声合成技术的基本原理    现在来剖析这首划时代的音乐作品所使用的技术手段。对于人声合成技术的了解，首先要从了解人声开始。

人的发声器官好比一件乐器。一般来说，乐器结构主要有三部分：动力部分、振动部分和共鸣部分。从人的发声器官来看，呼吸器官（肺、横隔膜、气管、胸廓和腹肌等）属动力部分；喉部声带属振动部分；口腔、咽腔和鼻腔属共鸣部分。咬字器官包括唇、舌、腭和齿。无论在解剖生理方面或在声音物理方面，振动器官——声带当属人声发声系统最为重要的器官，声带振动发出喉原音的质量直接影响人声的音色及其音响效果。

从声学上来说，声音有四个特征：音高、音强、音色和音值。同样地，发声器官在发声生理上与声音的四个特征是有着密切的关系的。

(1)音高
人声的音高取决于声带振动次数也就是频率。振动次数越多，频率就越高，音就越高。声带振动次数与声带长度、厚度和张力都有关系。声带长、厚并且张力低，被称作发声音调低；声带短、薄并且张力强，则被称作发声音调高。

(2)音强
由声带振动幅度的大小决定。人声的强弱首先与气息有关，气息强，声带振幅大，声音就强；反之就弱。其次，音强与共鸣腔有关。共鸣腔越大，腔体结构质地越硬，则声音就越强。共鸣在发声中是最重要的因素，它赋予了嗓音的音量和音质，并且加强了其响亮度。

(3)音色
指声音的色彩，这是由声带振动体的质量决定的。不同的人，声带振动体产生的复音、声波的数目是不同的。复音中的许多声波，其中频率最低、振幅最大的叫基音，其余频率高于基音，或基音频率整数倍的声波，叫泛音。基音决定音高，泛音的多少或强弱决定音色。

(4)音值
音值是指声音的持续时间的长短。从发声生理来讲，音值的长短与发声气息长短和声门闭合阻抗大小有关。

除了音高以外，其他的三个特征都直接和共鸣腔有关系，共鸣腔也就是所谓的共振区域。由此，就引出一个对于声音合成非常重要的概念——共振峰。

tea335317781 · 发表于 2016-6-29 09:25:52

在当前主要使用的语音合成技术中，有2种用于产生合成语音波形：连接合成(Concatenative Synthesis)和共振峰合成(Formant Synthesis)。就目前而言，连接
合成技术更多是使用在一些较为简单且合成语句较为固定的情况下，这是由于这项技术本身所限制的。而在音乐制作中所使用的人声合成器，大多是使用共振峰合成技术来实现的。

通过前面简单的介绍可知，共振峰指的就是声音的自然频谱峰值。在人声和大多数乐器的很宽的频谱分布中都存在一些固定的频率峰值，这种频率峰值在声音频谱中就叫作共振峰(Formants)。事实上，共振峰就是频谱图上包络线的极大值，它代表着在其频谱波峰包络曲线中，所形成的一个或几个明显的波峰。这个波峰总是位于一定的频率，不随发音频率的变化而变动。因此，共振峰也就自然成为了乐器音色的主要特征指标。

在语音声学中，人声因为受自身生理如鼻孔、咽腔、口腔大小的影响，也有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小的变化，例如改变咽喉、嘴形等，就能改变声音的共振主要也是依靠它们的共振峰分布的位置。在人的语言中，不同元音的共振峰，是人们赖以分辨、理解语言的决定性因素。而在计算机音乐中，它们是决定音色和音质的重要参数。
在计算机的数字合成时，共振峰主要是通过音频数字来计算的。共振峰区尽管不直接与基本频率的音高有关联，但或多或少有间接的影响。如人声的发声，如果基频在共振峰区以下，人声的发声就会很丰富饱满，假如基频高于共振峰区，就会使人很难发出正确的元音，因为人的生理条件在发出过高的音时会变形，共振峰也会变化。

3人声合成技术类型    3.1“共振峰合成”技术
“共振峰合成”技术使用声响学模型构造声音，这种方法也被称作基于规律的合成技术(Rule-BasedSynthesis)。语音中正是共振峰决定了语音的基本轮廓。许多基于共振峰合成技术的系统往往产生人造的、机器人似的声音，以至于很容易将它们的声音与人类的声音区分开。当然这种不自然性并不是共振峰合成技术追求的目的。但是当需要高速语音时，共振峰合成不会产生连接合成难以避免的出错；另外，由于共振峰合成技术不需要采样数据库，程序所需空间比连接合成技术小，因此易被用在存储空间有限的嵌入式系统中；更重要的是由于共振峰合成技术能够对输出语音的任何地方进行完整的控制，因此可以允许很多音调、语速、连读习惯上的变化，从而不但能够反应诸峰。人们之所以能够区分不同的人声、元音，如问句和陈述句的区别，同样可以反应出很多感情因素。 3.2“连接合成”技术
“连接合成”技术是基于对已录制的语音片断的连接。一般情况下，连接合成技术提供最自然的合成语音。然而，自然语音中的变化和自动分割波形技术有时会给输出带来问题，影响到自然度。连接合成技术主要有3个子类：单元选择合成(Unit selection  synthesis)、双音素合成(Diphone synthesis)和特定域合(Domainspecificsynthesis)。连接合成运行时使用人类语音采样作为输入数据库。 3.3 其他类型
除了以上介绍的共振峰合成技术和连接合成技术以外，还有一些其他的语音合成技术也同时在被使用。

Articulatory synthesis: Articulatory synthesis技术至今仍然以学术研究为主，很少有商业化的产品问世。

Hybrid synthesis: Hybrid synthesis结合共振峰合成技术与连接合成技术，用于减少高速语音时连接语音片断后出现的错误。

HMM-based synthesis: HMM-based synthesis是基于Hidden Markov模型[23]的合成方案．利用HMM对语音频谱、基本频率和持续时间同时建模，遵照“最大可能性”法则从HMM模型里产生语音。

4  Imogen  Heap使用的人声合成技术    在Imogen Heap许多版本的现场演出的视频中都可以清楚地看到，她使用一个MIDI键盘来演奏和声部分，她负责主音部分。在每次演奏之前，她都要花一些时间来进行设置和测试，一直到声音效果让她满意为止，才会开始表演。于是，根据人声合成技术的基本原理，推测出她就是直接使用MIDI键盘的信息去触发人声合成器工作的，见图2。至少，在现场看来，她是这样做的。一方面，MIDI可以作为触发开关来启动人声合成器工作，另一方面，MIDI的输入也为合成时的音色采样提供了样本。

《Hide and Seek》这首歌的编配比较简单，主要有两个声部：主音声部和和声声部。主音声部由ImogenHeap自己担当，和声声部就是使用经过人声合成器合成的人声。她演唱时采用合成器的人声唱和弦，使得和声声部的音色和主音声部的音色形成鲜明的对比。在现场演出的时候，Imogen Heap是依靠弹奏键盘来触发合成器，实时输出经过合成的人声。这对于现场演出的互动性而言，可谓是前进了一大步，原本属于庞大的乐队和伴唱等舞台上众多演员的T作，一个人便可独揽。整个演出由她一个人负责主音的演唱、和弦的弹奏，伴唱的合成；更重要的是，作品的效果是独一无二的。同时，实时的合成效果以及弹奏上的细微差异，可以造成非常独特的现场演出的创意和互动的过程。

在Imogen Heap的另外一首作品中，也同样使用了人声作为和声伴奏。相对于传统的流行音乐的编配方式而言，纯人声的配器方式无疑带来了完全崭新的方面。同样来自她的作品《Just for Now》，也只使用了她本人的声音，连同她的呼吸声和掌声来构成节奏和伴奏完成整部作品。在作品的开始部分，她使用采样机以固定的节奏录制下自己演唱的伴唱部分，并且不断循环播放，一边跟着节奏，一层一层添加进自己的哼唱，呼吸和掌声，一边播放一边录制，完成作品的和声、节奏、伴唱等部分。最后根据需要，在自己进行主音部分表演时，有机地选择前面录制的部分播放，从而完整实现整个作品的互动演出。这是对技术熟练运用的体现，也是对人声和声的新的表演形式的探索，它使得整个现场演出充满了惊喜感。

账号		自动登录	找回密码
密码			快速注册

[教程] 人声合成技术在音乐中的应用

浏览过的版块