音频应用   音频插件联盟,正版插件,欢迎大家选择!

 找回密码
 快速注册

QQ登录

只需一步,快速开始

阅读: 21618|回复: 1

[转载] 沉浸式音频系统主观与客观评测体系的探索

[复制链接]

421

积分

2

听众

106

音贝

音频应用

Rank: 1

积分
421
发表于 2020-12-26 | |阅读模式
音频应用公众号资讯免费发布推广

沉浸式音频系统主观与客观评测体系的探索

与传统的音频系统不同,沉浸式音频(Immersive Audio)系统侧重于沉浸式属性(Immersive Property),也就是突出其可以从三维空间中的任何角度对声音进行渲染和还原。为了能有效地对沉浸式音频系统进行评价,提出一种沉浸式音频的主观和客观评价方案,构建衡量沉浸式属性(三维空间任意渲染)的沉浸式指数,其他属性延续传统音频系统的评价方法。





1 沉浸式音频技术的发展现状



声音经历了无声(Silence)、单声道(Mono)、立体声(Stereo)、5.1/7.1等发展过程,笔者将这个过程抽象为从空(Empty)、到点(Point)、到线(Line)、到面(Plane)的历程,如图1所示。近年来,声音研究者开始突破平面的限制,将声音的录制(Recording),渲染(Render)与还原(Restore)进行三维处理[1]。

640.webp (59).jpg

图1 声音的发展历程



一种显而易见的方式是增加声道数,即基于声道(Channel-Based Sound)的技术方案,除了在双耳横切面进行扬声器平面布局外,分别在头顶(Top)与脚下(Bottom)进行部署,从而形成三维的空间布局,如图2所示,如9.1,11.1,13.1,15.1以及22.2。将这种布局的表示归纳三种方式:(1)x.y,x表示主扬声器与环绕扬声器声道总数,y表示次低频扬声器LFE;(2)x.y.z,z表示顶环扬声器声道总数,x表示主扬声器与平面环绕扬声器声道总数;(3)x.y.z.n,n表示底环扬声器声道总数,z表示顶环扬声器声道总数,x表示主扬声器与平面环绕扬声器声道总数。


640.webp (60).jpg

图2 一种16通道扬声器的布局



但是,这种技术具有先天的局限性。随着声道数的增多,后期录制和处理的工作会呈几何级数增加,称之为多声道技术的超级复杂性(Super Complexity)。同时由于没有任何一个播放环境与制作节目的后期混音棚是一致的,因此,没有多声道技术实际播放的环境能如实展现创作者的意图,称之为多声道技术的完全不一致性(Total Inconsistency)。



因此,基于对象(Object-based Sound)的技术方案应运而生,其描述的是声音轨迹,如图3所示。一个声音对象包含如下元素:信号本身s,隐含的时间信息t,以及其在三维世界的三维坐标{x,y,z}和其他辅助属性,o={s,t,{x,y,z},aux parameter}。混音师无需花费大量的时间来处理每个扬声器的具体输出信号,只需要将主要精力放在艺术创作上即可。上面提到的多声道技术的超级复杂性与完全不一致性都被解决了。



640.webp (61).jpg

图3 基于对象的HOLOSOUND后期制作流程



基于声场(Scene-based Sound)的技术方案适合描述没有轨迹属性的声音,主要是重建空间中声场的分布,如图4所示。声场和大家比较了解的光场类似,是对以特定位置为中心的整个声音信号场的信号描述,典型的分解描述是采用高阶Ambisonic技术,比较有效的方法是使用传声器阵列录制后进行矩阵转换。其善于处理环境声场效果,是对象技术的有益补充。



640.webp (62).jpg

图4 5阶声场HOA技术示意图



因此,当下的沉浸式音频系统采取融合声道、对象与声场三种技术的方案,具体实现就是,声道作为基础,对象技术实现声音在三维空间的连续运动,声场技术用来描述没有运动轨迹的元素,营造周边环境或烘托氛围。Dolby ATMOS主要采用了声道+对象的技术方案。HOLOSOUND在声道+对象的基础上,将声场技术融合进来,采用高阶立体音频HOA(High Order Ambisonics)算法,可以对整个声音空间之中的某一点对象的声音进行录制,记录每一点声效的坐标位置、声像大小与位移时间等重要信息的元数据。为每一个声音指定运动轨迹,通过音频处理器的实时运算渲染,把运算后的声音对象分配到相应的一个或多个扬声器中,音频处理设备具有自动房间声场校正系统,从而实现声音对象在三维空间中的运动。



HOLOSOUND系统框架如图5所示,分为制作端与放映端,各部分的技术实现方案见图6。其中,制作端音频技术工作流(Workflow)如图7所示,放映端音频技术工作流如图8所示。


640.webp (63).jpg

图5 HOLOSOUND系统框架(制作端与放映端)


640.webp (64).jpg

图6 HOLOSOUND制作端与放映端的技术实现方案



640.webp (65).jpg

图7 HOLOSOUND制作端技术工作流



640.webp (66).jpg

图8 HOLOSOUND放映端技术工作流
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

421

积分

2

听众

106

音贝

音频应用

Rank: 1

积分
421
 楼主| 发表于 2020-12-26 |
2 对于HOLOSOUND与ATMOS的主观评测



2018年10月11日,中国电影发行放映协会(CFDEA)协同中国电影科研所(CRIFST)组织了几十名业内专家对于沉浸式音频HOLOSOUND与Dolby ATMOS进行了盲测。之所以选择HOLOSOUND与ATMOS,因为两种技术符合DCI/SMPTE标准[2-5]。参与评测的专家分别来自于中国电影科研所、中宣部电影数字节目管理中心、中国电影集团、华夏电影、北京电影学院、中国电影数字制作基地、中国传媒大学中国中央电视台等,具有专业性与代表性。



为避免一些先入为主的认知,评测采取盲测的方式,共用同一个影厅、同一个影厅的扬声器以及相应的功放,评测的内容及设备切换的拓扑图见图9。由于ATMOS与HOLOSOUND都采用对象技术,并且都做到了点声源,因此,可以共用一套播放系统,采用的播放组合如表1所示。该盲测的结论主要有两点:



640.webp (67).jpg

图9 盲测对比内容与设备切换拓扑


640.webp (68).jpg



HOLOSOUND与ATMOS系统是兼容的,也就是ATMOS播放系统可以播放HOLOSOUND素材,HOLOSOUND播放系统也可以播放ATMOS素材;

HOLOSOUND与ATMOS系统效果是一致的,效果的评价点包括:音质、总体还音效果、声像定位、声音层次、响度均匀性、声音连续性等。





3 客观评价体系



传声器阵列(Microphone Array)作为一门现代声学的重点课题,在过去的10年内取得了突飞猛进的发展,图10是一种典型的传声器阵列。利用传声器功能可以实现定位(Location)功能,可以通过判定目标位置(Target Position)与测量位置(Measured Position),来判断沉浸式播放系统是否能达到设计的沉浸式效果。



640.webp (69).jpg

图10 一种典型的传声器阵列



由于在国内外还未发现关于沉浸式音频的评价方法,笔者及所在团队基于人工智能技术,结合传声器阵列/人工头分析仪,采用特殊的算法,形成了沉浸式音频指数AII(Audio Immersive Index)评价方法,目前已被SMPTE与AES等相关的国际标准组织所采纳。其目的是用于沉浸式音频与沉浸式音频、沉浸式音频与传统音频之间的技术对比,区分出什么是沉浸式音频技术。相比人工盲测的主观评测方式,更加客观、准确,为评价沉浸式音频系统的效果提供了有力的技术依据。



3.1

音频沉浸式指数之数字电影




下面给出沉浸式音频指数AII的评价方法,图11是AII获取技术所采用的可能的传声器阵列图,图12是数字影院基于扬声器的AII系统流程图。具体的评价方法和计算过程(采用球坐标形式表示信号的坐标)[6]。


640.webp (70).jpg

图11 AII获取所采用的可能的传声器阵列



640.webp (71).jpg

图12 数字影院基于扬声器的AII系统流程图



(1)构造目标位置信息



构造X个点对象, 每个对象的三维位置可以用图片来表示(1≤i≤X),这些点对象通过各种不同的Render系统进行还原,依据Render的能力在特定的扬声器布局中进行展现。



(2)获取测试位置信息



假设传声器阵列有M个传声器,采集所述音频对象信号后获得信号数据;



将所获得的信号数据转换成N阶HOA数据,由于N阶HOA数据实际上有图片路数据,需要一个专门的M×图片维度的矩阵。



构造的等角度差的虚拟扬声器阵列,每个扬声器包括一个空间坐标,扬声器个数为N;



根据构造的等角度差的虚拟扬声器阵列对所述N阶HOA数据通过一个图片×W维度的矩阵进行处理,获得W个扬声器输入信号,其中,W个扬声器输入信号中最大的输入信号对应的扬声器的空间坐标为测试位置信息 , 图片(1≤i≤X)。



(3)计算AII



依据上面步骤(1)构造的图片, 以及步骤(2)确定的图片,音频沉浸式指数AII可以采用如下公式确定:
640.webp (72).jpg

其中,AII表示沉浸式指数,X表示静态对象源的个数,使用很多不同位置的静态对象源,图片表示构造的目标位置信息,图片表示测试位置信息。



采用上述方法和计算,在数字影院对国际上常见的ATMOS、DTS-X和HOLOSOUND三种基于对象的沉浸式音频系统进行测量。选取参与测试的影院,包括苏州金逸吉尼斯记录影厅、中影基地ATMOS/HOLOSOUND混音棚、上海百老汇影城、中器影厅,尽可能地在达到同等条件下进行测试。其中一个厅的配置如表2所示,相应的音频点位图如图13所示。AII的测量结果如图14所示。



640.webp (73).jpg
640.webp (74).jpg

图13 沉浸式音频点位图


640 (20).png

图14 几种沉浸式音频技术在数字影院的AII测量结果



3.2

音频沉浸式指数之数字电视




数字电视沉浸式音频评价体系与数字电影没有本质上的区别。数字电影采用的扬声器数量较多,例如,ATMOS在影院系统最多可以达到64通道,HOLOSOUND最多可以达到256通道。



而以电视为核心的家庭娱乐系统一般采用5.1.2/5.1.4/7.1.2/7.1.4的设置,甚至有的时候采用SoundBar形式的虚拟扬声器。但本质上是一样的,都是通过扬声器来还原对象的解析。实际测试结果显示, 无论是5.1.2/5.1.4还是7.1.2/7.1.4,沉浸式指数AII远远小于数字影院中小厅的音频沉浸式指数AII。这一测试结果也与实际情况相符,因为,一方面与数字影院相比,以数字电视作为核心的家庭影院一般环境都受限;另一方面在建声上也与数字影院专业的声学环境有差距;再有在扬声器布局上,实际上至多也就是12路点声源,而即使中小影院基本上没有低于32路点声源配置的。



另外一个重要的结论是,采用SoundBar的音频系统,音频沉浸式指数AII远不如直接采用真实扬声器配置的AII。



3.3

音频沉浸式指数之双耳声学




HOLOSOUND基于双耳声学的HoloSound Spatial Audio (HSA)技术,主要应用于汽车影院和个人消费性电子领域。双耳声学主要研究的是基于已知位置对信号进行处理,与数字电影以及数字电视方案有本质上的区别,如图15所示。



640.webp (75).jpg

图15 3D空间音频效果与立体声比较



对双耳声学的效果进行评价则需要已知处理过的信号,来判断其来自哪个位置。基于人工头分析仪的双耳声学评测AII系统原理及流程如图16、图17所示。



640.webp (76).jpg

图16 双耳声学基于人工头分析仪的AII系统原理图



640.webp (77).jpg
图17 双耳声学基于人工头分析仪的AII系统流程图



在这一评价体系中,人工头分析仪具体用于:

采集所述音频对象信号s后获得第一左耳信号数据s*FIR-L-X和第一右耳信号数据s*FIR-R-X,将所述第一左耳信号数据s*FIR-L-X和第一右耳信号数据s*FIR-R-X进行去信号处理,获得第二左耳信号数据FIRL-X和第二右耳信号数据FIR-R-X,从而得到目标位置信息(如图18所示);



640.webp (78).jpg

图18 人工头分析仪与对象位置



根据所述第二左耳信号数据FIR-L-X和第二右耳信号数据FIR-R-X,再经过插值加密过的HRTF数据库进行检索,获得测试位置信息。



需要说明的是,一般HRTF数据库是[θ, ϕ,FIR-L-θ-ϕ,FIR-R-θ-ϕ] 的四元组;一般的应用是已知θ, ϕ,抽取FIR-L-θ-ϕ, FIR-R-θ-ϕ。而在这里是已知FIR-L-θ-ϕ, FIR-R-θ-ϕ去查找对应的[θ, ϕ],因此也可以称为反向HRTF,即R-HRTF。





4 总结



通过对几种沉浸式音频系统的主客观评价方法的探索,可归纳出以下几方面的成效。

获得了沉浸式音频技术与传统的各类音频技术比较的方法。如比较表3中不同分类的音频技术,其优势排序为:声道+对象+声场 > 声道+对象 > 多声道(声道数>8) > 5.1/7.1 > 2.1 > Mono > None

为评测同种技术之间的效果提供了方法,如表4所示,不含声场的HOLOSOUND技术与ATMOS技术的比较,15.1的LEONIS IAE与DTS:X技术的比较,7.1的LEONIS IA与Dolby CP750的比较[7-11]。



主观评测方法相对客观评价系统容易操作,但是无法排除个体主观差异的干扰,具有一定的主观性,很难完全复现。而客观评价系统利用大量的复杂信号处理与科学的算法,结论客观,可以随时随地地进行复现,并有效节省人力物力。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

小黑屋|手机版|音频应用官网微博|音频招标|音频应用 (鄂ICP备16002437号)

Powered by Audio app

快速回复 返回顶部 返回列表