语音识别技术分析

E-MU · 发表于 2009-12-26

　声音识别系统的发展得益于便宜的硬件，大多数的计算机都有声卡和麦克风。
　　但是声音识别系统比指纹识别系统有更高的误识率，因为人的声音不像指纹那样具备唯一性。
　　生物识别指从生理和行为特征上自动辨识人类的身份，包括面部、虹膜、静脉、语音、签名和指纹识别，以及掌形识别。要被辨识的人必须亲自站在识别器前，这样的辨识技术不需要记密码或携带识别证和智能卡。
　　随着个人身份号码和密码使用的快速增长，有必要限制对这些敏感数据的访问。替代了个人身份号码和密码，让生物识别技术使用更方便，能够阻止对ATM机、识别证和智能卡、移动电话、PC机、工作站和计算机网络等未授权的访问或是欺诈性地使用。个人身份号码和密码可能会被忘掉，识别证类的方法如护照、驾照和保险卡也可能被遗忘、被偷窃或丢失。
　　各种各样的生物识别系统现在被用作实时识别。最常见的是面部识别和指纹识别，此外，还有其他运用虹膜和视网膜扫描、语音、面部和掌形等的生物识别系统。
　　语音识别
　　语音信号表明了语言、语音生理上的呈现方式和类型，以及说话者的身体和情绪状态。20世纪60年代早期，贝尔实验室的Lawrence Kersta在计算机语者验证技术上迈出了重要的第一步，他在由复杂的电动机械设备产生的声谱图中引入了声波纹的概念，声波纹同视觉比较的验证运算法则相匹配。
　　为了进行语者辨识而记录人们的声音，这需要用语音来展现说话的行为和方式，语音识别是生物行为识别的一部分。语音信号是十分复杂的，它可以很容易地被普通的麦克风捕捉。然而，同其他生物识别技术如指纹识别相比，声音识别不是很稳定。
　　自动语者识别的先进方法要求随机的语者模型，模型具有不同的语音特点，它可以区分高级和低级信息。高级信息包括方言、口音、谈话风格和主题样式，这些特征现在只能被人辨识和分析。低级信息包括音高周期、节奏、音调、声谱级和个人声音的频率和带宽。
　　虽然较高质量的声音采集设备可以提高辨识的性能，但通过麦克风或普通电话也可进行。硬件的价格现在非常低，几乎每一台PC都有麦克风，或是很容易连接麦克风。
　　声音识别对沙哑或是模仿的声音不是很有效。如果遇到这种情况，系统将不能辨认使用者。此外如果麦克风质量很差或背景很嘈杂，辨识的准确率会降低。声音识别由于有较高的误识率，所以它较少被单独用到，往往会辅以更高辨识率的技术，如指纹扫描。而且语音会随着时间变化而改变，所以需要相应的样版和方法。
　　不同语者的语音变化和同一语者的语音变化
　　不同语者的语音变化是由个人不同的嗓音特征造成的，为区分不同的语者提供有用的信息。同一语者的语音变化是指语者不能以完全相同的方式重复同一词汇或句子的发音。
　　同一语者的语音变化包括不同说话速度、情绪状态和说话环境，它会导致语音识别系统表现的下降。所以需要选择可以显示较少同一语者语音变化，而较多不同语者语音变化的参数。在许多语音识别的应用中，通过要求使用者说出含有和训练语句相同文本和词汇的测试语句，来减少同一语者的语音变化。
　　语音识别系统被分为文本相关的和文本无关两种。文本相关系统要求使用者重复指定的话语，通常包含与训练信息相同的文本，文本无关的系统则没有这样的限制。在文本相关的系统中，大家熟知的词汇或词组信息可以用来提高辨识的表现。
　　语音识别系统提示客户在新的场合使用新的口令密码，这样使用者不需要记住固定的口令，系统也不会被录音欺骗。文本相关的声音识别方法可以分为动态时间伸缩或隐马尔可夫模型方法。文本无关声音识别已经被研究很长时间了，不一致环境造成的性能下降是应用中的一个很大的障碍。
　　工作原理
　　动态时间伸缩方法使用瞬间的、变动倒频。1963年Bogert et al出版了《回声的时序倒频分析》。通过交换字母顺序，他们用一个含义广泛的词汇定义了一个新的信号处理技术，倒频谱的计算通常使用快速傅立叶变换。
　　从1975年起，隐马尔可夫模型变得很流行。运用隐马尔可夫模型的方法，频谱特征的统计变差得以测量。文本无关语音识别方法的例子有平均频谱法、矢量量化法和多变量自回归法。
　　平均频谱法使用有利的倒频距离，语音频谱中的音位影响被平均频谱去除。使用矢量量化法，语者的一套短期训练的特征向量可以直接用来描绘语者的本质特征。但是，当训练向量的数量很大时，这种直接的描绘是不切实际的，因为存储和计算的量变得离奇的大。所以尝试用矢量量化法去寻找有效的方法来压缩训练数据。Montacie et al在倒频向量的时序中应用多变量自回归模式来确定语者特征，取得了很好的效果。
　　想骗过语音识别系统要有高质量的录音机，那不是很容易买到的。一般的录音机不能记录声音的完整频谱，录音系统的质量损失也必须是非常低的。对于大多数的语音识别系统，模仿的声音都不会成功。用语音识别来辨认身份是非常复杂的，所以语音识别系统会结合个人身份号码识别或芯片卡。
　　语音识别系统得益于廉价的硬件设备，大多数的计算机都有声卡和麦克风，也很容易使用。但语音识别还是有一些缺点的。语音随时间而变化，所以必须使用生物识别模板。语音也会由于伤风、嗓音沙哑、情绪压力或是青春期而变化。语音识别系统比指纹识别系统有着较高的误识率，因为人们的声音不像指纹那样独特和唯一。对快速傅立叶变换计算来说，系统需要协同处理器和比指纹系统更多的效能。目前语音识别系统不适合移动应用或以电池为电源的系统。

zgypw · 发表于 2009-12-27

分享了，谢谢楼主的发布，我收藏了！

帐号		自动登录	找回密码
密码			快速注册

[教程] 语音识别技术分析