当前位置:首页  音频新闻  厂商动态  声学视听音频正文

声学方法在城市安防中的应用

发布时间:05-14 编辑:21dB声学人

传统的城市安防监控系统主要依赖于视频监控技术,但随着社会对安全需求的日益增长,单纯通过增加传感器数量来提升视频监控性能,不仅成本高昂且效率低下,同时视频监控系统本身存在的诸多局限性,如隐秘性不足、存储需求庞大、易受环境影响等,也日益凸显。

鉴于音频信息作为视频的重要组成部分,许多城市开始探索智慧安防系统,并在安防监控系统中引入异常声学检测方法。这一方法作为视频信息的有效补充,不仅大幅提升了城市安防监控系统对公共安全事件的预警能力,增强了其对社会公众的威慑力,还有助于实现更高的系统私密性和更低的存储需求。

640_wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1.webp (1).png

应用现状


微纳感知计算技术有限公司从交通领域的鸣笛管控着手,其鸣笛抓拍系统可以通过专业声学雷达,滤除环境干扰噪声(车辆引擎声、刹车声、电动车鸣笛声、建筑噪声等),精准锁定目标噪声源位置,准确定位到违章鸣笛车辆,并将声音可视化,为后台智能管理系统提供直观准确的车辆鸣笛执法证据。而该系统又由声学雷达、智能音频分析单元、智能管理系统及网络摄像机共同组成,前三部分都由该公司来提供,因为接口都是标配的,有很好的兼容性,所以这套系统可以直接加装在现有的监控系统上且无需用户花太多成本去重新做整体改造。[1]


北科瑞声在国内推出的音视频联动监控系统,使得城市的安防从过去简单的安全防护系统向城市综合化体系演变。为了助力校园安全防控体系建设,消除校园安全隐患,建设阳光安全校园,北科瑞声基于音频和视频联合的多模态智能分析处理技术,推出了智慧校园安防音视频联动监控系统。通过云边端芯协同,达到人防与技防相结合,有效实现多方、多终端、多设备的联动,实现联防联控,制止校园霸凌,预警危险事件,保障师生安全,提升学校安全防范能力,实现校园管理可视化、数据化、智能化;该系统还与建造智能化系统结合,使各类建筑建设场地,特别是城市中大量的小散工地日常管理智能化再升级。对工地人员、车辆、施工设备、建材、建筑本体的运行进行声音和视频的实时监控。重点对人员、车辆设备的非正常操作行为、安全风险进行识别,噪声和环境监控,对违规行为声音互动警示,实现与项目实施各方以及住建主管部门多级信息联动,提升工地的安全施工效率及智能化管理水平。[2]    


西安联丰迅声研发的新一代嵌入式声球联动系统,通过成熟的声音信号处理技术,显著增强了现有视频监控设备对异常声音的感知能力。该系统能够迅速定位并引导摄像头转向异常声音来源,实现360°全方位实时监控,同时自动存储相关音视频证据。该系统解决了传统安防中的盲区大、取证难、不即时等问题,提高了视频监控的智能化和即时响应能力。其主要功能特点包括智能升级、秒级响应、适配性强、存储取证和统一管理,可广泛应用于各种安防场景中,有效提升安防效率和效果。[3]


研究现状


异常声学事件的检测主要包含两个阶段,即声学特征的提取阶段和声学事件的分类识别阶段。目前研究的声学特征大致分为三类,即时域特征、频域特征和时频特征。其中前两类应用最为广泛,代表特征分别有短时能量(Short Term Energy, STE)和过零率(Zero Crossing Rate, ZCR);梅尔频率倒谱系数(Mel-scale Frequency Cepstrum Coefficients, MFCC)、线性预测系数(Linear Prediction Coefficient, LPC)以及线性预测倒谱系数(Linear Prediction Cepstrum Coefficient, LPCC)。常见的时频分析方法有短时傅里叶变换、小波变换和匹配追踪算法等。与声学分类识别算法类似,异常声学事件检测可以使用传统的模式识别技术,如动态时间规整技术、隐马尔科夫模型(Hidden Markov Model, HMM)和高斯混合模型(Gaussian Mixture Model, GMM)。近年来随着机器学习技术的迅猛发展,各个领域掀起了人工智能的研究热潮,K邻近(K-nearest neighborhood, kNN)、神经网络(Neural Network,NN)、支持向量机机(Support Vector Machine, SVM)和随机森林(Random Forest, RF)等也相继被应用到声学事件识别中。[4]   


声学特征提取方面, Cohen等人[5]通过音高、短时能量和MFCC等特征,成功实现了婴儿啼哭声的自动识别与检测,然而,短时能量在描述音频信号的非平稳特性上存在局限,尤其是在识别种类增多时,其系统检测精度会大打折扣。Hrabina等人[6]通过对比MFCC、LPC和LPCC等特征,发现LPC在不同信噪比环境噪声下具有最佳表现,然而,MFCC虽在特定信噪比和白噪声背景下表现突出,但其对非平稳噪声环境的适应性仍待提高。Chu等人[7]指出,MFCC在处理具有平坦频谱的“类噪声”信号时效果不佳,且低信噪比环境下鲁棒性差,为了克服这些局限,他们引入了MP算法作为时频分析的新方法,并通过提取Gabor原子的参数信息来获取更为丰富的时频特征,然而,MP算法在实际应用中暴露出的问题,如特定频段信息丢失等Wang等人[8]采用非均匀分布的频率模拟心理声学对人类听觉的影响,有效提升了MP时频特征在实际场景下的检测能力,然而,Nguyen等人[9]的研究指出,同类声学事件的持续时间差异使得仅依赖Gabor原子的尺度参数作为时域信息显得不够充分;Alias等人[10]揭示了MP算法在音频分析中的巨大潜力,他们不仅利用MP算法提取了音频的频谱信息(如基音、音色等),还构建了多维时频张量特征,为音频特性的全面分析提供了有力工具。   


声学事件的 分类识别阶段,Jagtap等人[11]设计了一种基于kNN的婴儿啼哭检测系统,该系统兼具婴儿啼哭声识别与情绪辨识的功能,且具备高精度和低复杂度的优点,然而,kNN算法对样本中奇异值的敏感性使得该系统在降噪处理上有所依赖,特别是在低信噪比环境下,其稳定性和鲁棒性面临挑战;Dufaux等人[12]巧妙地结合了GMM和HMM两种分类器,通过大量实验对比,他们发现HMM在时间序列建模方面表现出色,识别精度极高,然而,HMM对数据样本的需求量大、模型训练时间长以及泛化能力相对较弱等问题也不容忽视,因此,他们提出了一种创新策略,即根据信噪比环境选择使用GMM或HMM,以平衡识别精度与计算复杂度;Jung和Valenzise等人[13][14]发现GMM在枪声、尖叫声等特定声音的检测中表现突出,然而,他们也指出了GMM的维度问题,即为了获得理想的识别效果,需要对模型进行多次递归调整,这无疑增加了计算复杂度;Takahashi等人[15]发现CNN在识别玻璃破碎声、尖叫声等多种声学事件时表现出色。然而,由于异常声音在日常生活中较为罕见,CNN的训练需要大量的样本数据,这在实际应用中带来了一定的挑战;针对爆炸、枪击等危险事件的识别,Arslan和Okuyucu等人[16][17]提出了使用支持向量机(SVM)的方法,在样本数据有限的情况下,SVM能够挖掘数据集中更多的潜在特征,从而实现较高的准确率,然而,SVM对损坏数据的容忍度相对较低;Sarman等人[18]提出的集成学习模型,通过组合多个分类器,实现了对暴力声学事件场景音频的高效准确分类。这项研究不仅验证了集成模型的简单性与高效性,还指出以RF作为基学习器的集成模型在暴力声学事件检测中表现最佳。这一发现为未来的研究提供了新的方向,并预示着集成学习在声学事件分类识别领域将发挥越来越重要的作用。   


 


[1] https://www.iyiou.com/news/20190901111127

[2] https://www.raisound.com/List-View-id-374.html

[3] https://www.jimay.com/technews/42384.html

[4] 城市安防场景下异常声学事件检测方法研究

[5] Infant cry analysis and detection

[6] Comparison of feature performance in gunshot detection depending on noise degradation

[7] Environmental sound recognition with time–frequency audio features

[8] Gabor-based nonuniform scale-frequency map for environmental sound classification in home automation

[9] Matching pursuit based robust acoustic event classification for surveillance systems

[10] A Review of Physical and Perceptual Feature Extraction Techniques for Speech, Music and Environmental Sounds

[11] System propose for Be acquainted with newborn cry emotion using linear frequency cepstral coefficient

[12] Automatic Sound Detection and Recognition for Noisy Environment

[13] Performance Comparison between GMM and SVM for Scream Sound Detection

[14] Scream and gunshot detection and localization for audio-surveillance systems

[15] Deep convolutional neural networks and data augmentation for acoustic event recognition

[16] Impulsive sound detection and gunshot recognition

[17] Audio feature and classifier analysis for efficient recognition of environmental sounds

[18] Audio based violent scene classification using ensemble learning


声明:该文观点仅代表作者本人,音频应用发布平台仅提供信息存储空间服务。加微信:254969084带你进群学习!百家号免费发布

最新音频交流