音频应用

 找回密码
 快速注册

QQ登录

只需一步,快速开始

查看: 21682|回复: 2
收起左侧

[音视频] 基于数字视频水印技术解决音视频同步探讨

[复制链接]

1万

积分

7

听众

-1366

音贝

音频应用注册会员

Rank: 4Rank: 4

积分
14258
发表于 2005-5-5 02:10:00 | 显示全部楼层 |阅读模式
    在传送数字电视的过程中,音频与视频的延迟不是一个新的问题。电视节目起始时,音频与视频是同步的,然而当节目*终分发信号时,音、视频以不同的方式、路径被传送和处理,因而它们经过了不同的处理延迟,导致了令人讨厌的视频现象——“唇同步错误”。大多数唇同步错误来自于演播室、卫星链接、帧同步设备以及数字视频特技机(DVEs)等所产生可预见的延迟,它们可以通过在信号的路径上增加固定的延迟来补偿。随着MPEG流节目的加入,数字视频信号路径中,潜在的延迟不断增加,这个视频信号受制于多重的编、解码压缩处理,所有的延迟产生累加,更多可变的延迟来源于复杂视频特技和音频*处理,混合信号延迟的结果更加显著,到了足以使观众抱怨的程度。在1994年国际电讯同盟(IUT)成立了一个组织来调查A/V时基误差,该组织开发了试验条件和提议了一个计划来测试唇同步错误,1995年公布了测试结果,并于1998年推荐ITU-RBT.1359-1NT发布,对于电视观众,声音时间误差可靠察觉的阈值范围是:声音超前45ms,滞后125ms;可接受的听觉时间误差阈值范围是:超前90ms或滞后185ms;听觉时间误差从可察觉到不可接受的时间差是:声音超前45ms,滞后60ms。

    一、人的视觉与听觉与音视频延迟属性

    人们习惯于认为在看见某事件发生之后,才听到与该事件相关的声音,是由于声音的速度慢,而光的速度快,这种自然差别的一个典型例子是:在听到棒球被打击的声音之前,我们就已经看到了棒打击球的动作。然而A/V延迟归因于视频处理的结果:电视观众经历了在看见相关行为发生之前,就已经听到了该事件结果的声音,它是不自然的延时视频的知觉。在过去的多年中,我们对电视寄予了诸多的希望,包括增加通道容量,改进音、视频的质量,主要是凭借新技术的数字处理能力,然而影响电视节目质量的一个因素始终存在,即我们常说的唇同步问题,但是唇同步错误在模拟设备中出现已经多年了,在数字处理的数字设备中,甚至出现了更大的挑战。它正在变成电视节目制作与分配处理中的普遍问题。路由、分配增加了信号处理的复杂性,多通道音、视频信号的数字处理已经导致了广播设备系统内,维护音视频同步的问题增加,从小处而言,这些设备的某些部分产生了不明显的音视频延迟,从而在分配通道的终端,积聚形成了明显的错误,因此有必要在整个系统内多个点监测音频对视频的延迟,通常情况下,只要音视频信号被分离处理,在广播网内就会引入音频对视频的延迟,因为高带宽的数字处理,数字视频信号可以占有数场时间来产生一个输出,然而音频信号较之视频信号具有较低带宽,它只需很少的处理时间来产生一个输出,因而在广播设备的系统设计上,应该考虑到这个处理的时间差,以便在音频路径内插入固定的延迟,以除去音频超前视频的状况,典型地,一个熟练操作者通过观察与监听节目素材来确定是否存在错误,为了做到这点,操作者必须在图像中寻找可视的线索,来确定所听到的声音是否与该图像实时内容相关以及是否同步。*常见的方法就是:听一个人说话的同时,去观察他的嘴唇的运动来检验音视频是否同步,然而当在图像中没有可视的线索来确定唇同步时,诸如嗓音,对操作者而言就很难确定唇同步错误。

    二、传统的方法及处理

    传统测量唇同步是一个相当复杂的问题,传统的解决方法需要同时产生与获得音视频信号和它们相关时间分析,然而因为实况音视频节目的随机与动态性,传统的测试方法只能工作在“离线”模式,使用专门的音视频测试信号插入节目链的“上游”以便后期相对时间的分析。“离线”模式所需的测试信号由全场视频基础信号组成,它在图像的*黑部分与*白部分之间同步地循环,并带有一个在图像的*白部分开启;在图像的*暗部分关闭的尖叫的声音音调,以提供一个优良的音频对视频的校正参考。

传统的自动唇同步错误测量的局限众所周知如下:首先,依赖音频与视频时基,熟练的、主观的分析;其次,只能离线作业,依赖于嵌入在数字电视信号垂直消隐段或者辅助数据空间内所必须传递的技术。现有的制播系统绝大多数采用了嵌入方式来完成音视频的同步,其基本原理实质上就是音、视频在各自独立的通道及路径中,完成自己的分配以后,将音频信号数字化,然后嵌入到SDI视频信号中的辅助数据空间共计288个字节(除去其中EAV、SAV的8个同步标志字节外,所以有效空间为280个字节),在该辅助数据区,将音频格式化为诸多音频包进行处理,在设备中实现嵌入以及将音频信号同步于所嵌入的SDI信号,*终将待嵌的SDI信号再分送主控,来解决声音、画面同步问题的。对于多数嵌入器,音频对视频的延迟调整范围大约是0ms~1300ms,在数字演播室制播系统中,由于很少涉及对信号的反复压缩、解压过程以及*处理,所以音视频信号在各自独立的通道及路径中分离传送,在嵌入音频以前所产生的音频对视频的延迟非常小,在嵌入器中完全可以进行微调整,使音频同步于视频,处在听觉、视觉可接受的范围内,因而前期的这种延迟,往往被“视而不见”,这种情况是因为它没有积累到令人难以接受的地步。以下是嵌入音频的基本原理及双通道嵌入器(以GVG或者LEITCH产品)硬件原理流程。  

图一

200805064390.jpg

图二

200805064389.jpg

    辅助数据结构、插入的位置:SDI信号同样是在电视信号的逆程段(行、场消隐期)传送辅助数据的,行、场辅助数据插入在各自对应的行、场消隐段中。这些辅助数据通常包括时间码、数字音频、监测诊断信息、帧型信息等,如图1所示,在分量数字视频中,有许多辅助数据空间是可用的。除了EAV和SAV同步字(3FF,000,000,XYZ)所占据的空间(共计8位10Bits十六进制数)外,所有的行、场消隐间隔均可用于插入辅助数据,辅助数据空间的数据被划分为两种类型:行辅助数据HANC(horizontalancillarydate);场辅助数据VANC(verticalancillarydate)。嵌入方式分为两种:基本嵌入和扩展嵌入方式。基本嵌入音频:SMPTE建议,嵌入音频提供四通道20bits音频数据,它以48KHz对模拟音频信号进行取样,该取样信号时钟锁定于所嵌入的SDI数字视频信号。尽管是指复合数字部分的标准,该方法同样也适用于分量数字视频。基本嵌入音频对应该建议中嵌入音频标准的等级A,为其他等级的操作提供更多的通道数目、取样频率、以及附加的信息,基本嵌入音频数据包格式源于AES音频如图4所示。

图四
200805064392.jpg

    使用音频嵌入器将模拟音频信号进行模数转换后,再进行格式化,变为AES数据包,进而嵌入到SDI信号的行辅助数据区,音频取样频率为48KHz,且同步于所嵌入的SDI信号,因此很好地解决了音、画同步的问题。这种方案的优点是:技术已经相当成熟,设备简单、价格低廉,现有的绝大多数数字制播系统都采用了这种方式。但是同时也存在诸多问题:如一旦音频嵌入SDI数字信号中,形成带嵌入音频的SDI信号后,将难以对其所嵌的音频信号进行单独的调整;监测与校正则必须在系统中使用附加的专用设备;当制播系统中存在MPEG传送流(TS流)时,信号将处于反复的压缩与解压中,会累积产生较大延迟,传统方法难以处理等…泰克公司研发了一种基于数字视频的水印技术设备(AVDC100),为音频对视频延迟错误的监测与校正提供全新的解决方案。

    三、数字水印技术(DigitalWatermarkTechnology)、AVDC100

图三
200805064391.jpg
    数字水印技术研发于二十世纪九十年代,就是在数字图像中潜藏着数据,水印被研发出来,用于知识产权中的版权保护,以及提供防伪钞保护,它同时也用于因特网中对静态图像的版权管理,而只是*近几年才被应用于数字视频方面的。图3显示了泰克专利数字水印技术工作流程,在本例中使用了8个水印格式,每一个格式代表一个8比特数字中的1比特,值得注意的是,水印格式的信号等级低于电视观众探测能力的阈值,并且经常低于专业视频录像机的量化噪声等级。使用AVDC100的系统将水印技术应用于数字视频被称为内部视频数据通道技术,因为该数据通道是内部的,或者是隐藏于数字信号内部,水印格式是一个三维的扩展频谱数据模块调制,形成了一个依赖于视频图像系列的亚层数据通道。每一个水印格式代表了一个二进制比特位,0或者1,由加入到该视频图像中的格式的相位决定,使用了8个*的格式,代表了8比特数据字,共有256种组合,这8个格式总计成为一个被传送的调制遮罩主格式,这个调制遮罩决定了在数字图像中,它能*好地隐藏水印的位置,*佳的位置绝大多数处在是视频信号的高频段和高亮度区域,很少处于低频段和低亮度区域,数字水印被分布在整个视频帧中,并在视频信号中创建亚层通道,对于525行系统是:8bits/frame,30frames/s;对于625行系统,25frames/s,理论上,这相当于波特率为200(25×8),但是真实的波特率随着设备处理音频视频而变。使用AVDC100的水印格式是3D和全息的,3D(3Dimension)这个术语意指:数据在数字水印格式中的有效编码分布在许多视频帧中,如同一副纸牌卡片;数字水印格式是全息的,因为在水印数据通道中,整个数据的有效编码只需具有源视频帧的5%就可以被恢复。泰克的数字水印编码,AVDC100是*优化的嵌入一个重压缩的,为编码到数据字中的音频包转换传真,这些数据字被一帧接一帧地编码到视频信号中,作为数据格式*的一部分,实时地在该点创建一个音频包变化的记录,而音频包本身并不会被编码,只是音频包的变化被编码,AVDC100水印技术提供附加的有效荷载能力以编码一个*的ID源(标识),该标识能够通过节目分配链中的另一个AVDC100所探测。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

1万

积分

7

听众

-1366

音贝

音频应用注册会员

Rank: 4Rank: 4

积分
14258
 楼主| 发表于 2005-5-5 15:11:00 | 显示全部楼层
   图3中描述了这一过程。这个包被数字化并且加入视频信号中,通过泰克的数字水印技术将数据隐藏于图像中,水印可以理解为被加入到一个全帧图像的伪随机格式,该格式被调制到图像中,随场景而定并允许它对电视观众具有不可视性,当信号在整个网络中进行分配时,有一个嵌入到视频信号中、等待处理的同步参考和视频信号,在图3中一些点上,音频、视频信号分离的处理将会被组合,另一个AVDC100可以用于解码及测量任何音频对视频(A/V)的同步错误,这种方式是以从带数字水印SDI信号中,提取音频包来实现的。图4是音频对视频校正系统图:在A点已经同步的音视频节目进入编码器,节目音频包被编码并嵌入到视频信号中,作为亚层水印数据,在B点节目音频和带水印的视频被路由到普通的分配网中,在C点节目音视频离开网络同时伴随着与音频相关的视频延迟,亦是指音频对视频的延时,在该位置,音频与视频都被应用到从带水印的视频中,探测与解码该音频包的解码器、校正器。在D点已经恢复的音频参考与源音频信号之间倒换的时间被测量并用于控制一个不断地重新对音视频信号定时的音频延迟块。

    音视频延迟的监测与校正:在数字视频节目中,监测与校正音视频延迟共需要两台AVDC100仪器,一台安装在视频源;另一台必须安装在信号控制的*点。*台必须尽可能靠近原始的视频源并将之设置为编码模式,这样做的目的是让数字视频节目的音视频信号完全实时地采集到设备中,它在音频输入两秒的数据块,对音频包变化进行取样,然后创建一个深度压缩的、音频包变化变换复件所形成的数据字中代码,并将之编码在视频信号之上,作为*的数字水印格式的一部分,在该点及时创建一个音频包变化的记录点,该视频被*台设备编码之后,带水印的视频和原始的节目音频进入到网络中处理与分配,在唇同步错误可能产生的路径上,随着相对于音频的视频延迟,节目的音视频信号通常脱离网络处理路径,此时该节目音频与视频信号被发送到下游的另一个被设定来为带水印的视频信号解码的AVDC100,用该设备对视频信号进行取样并探测原先被编码的水印,于是这些被嵌入的数据字被译码,并将之与从有效的音频信号中,提取的音频包变化复件所合成的数据字相类比,这两个数据字用于时间关联及时间差的比较,直接作为唇同步错误定量的指示,内部音频延迟电路利用所检测到的时差值,不断地对音频信号相对于视频信号的时基进行重新定时,音视频延迟测量与校正值每两秒校正一次,值得注意的是因为设备是对音频取样时间是2秒,所以音频信号时间必须在与其相关的视频信号的30场内。

图五

200805064393.jpg

图六、七

图六、七、八
200805064394.jpg

    图6、图7、图8分别是该设备在数字转播车、演播室、以及含有MPEGTS(TransportStream)流的卫星下行系统中,数字视频水印技术的应用。

    四、结束语

    就现有的数字制播系统而言,绝大多数系统内流动的是SDI无压缩信号,模拟或者数字音频信号,这是由于其特有的视频、音频架构所决定,在这些环境中,A/V延迟较小,都处于视、听觉可以接受的范围内,几乎难以唇同步的存在,在实践上,都是采用音频嵌入这种成熟的技术,使用基本、扩展嵌入方式,很好地解决了音

    视频同步问题;然而随着未来制播系统的集群化、网络化、开放化,愈来愈多的MPEG流节目源将进入系统中,压缩与解压的反复,使得A/V延迟在数量上不断的积累,AtoV的延迟明显的表现出来,产生质的变化。这种唇同步问题将很难再用传统的嵌入音频技术来实现,泰克的基于数字视频水印技术,应用于电视节目制播中,为解决A/V延迟的老问题开辟了全新的途径:将音频包的变化压缩、编码到视频图像帧上,记录3D、全息的数字水印,再将其从通过对图像解码将水印提取出来,比较出时差,进行实时的监测与校正,在理论与实践上,做到了完美的统一。毫无疑问,这将成为未来复杂制播系统中,解决唇同步问题的主要方式。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong

2万

积分

6

听众

24

音贝

音频应用初级会员

Rank: 6Rank: 6

积分
21506
发表于 2005-5-6 01:46:00 | 显示全部楼层
基于数字视频水印技术解决音视频同步探讨,学习。
欢迎厂家入驻,推文!免费!微信:yinpinyingyong
您需要登录后才可以回帖 登录 | 快速注册

本版积分规则

音频应用搜索

QQ|小黑屋|手机版|音频应用官网微博|音频应用 ( 鄂ICP备16002437号 )

GMT+8, 2025-5-28 18:16 , Processed in 0.042442 second(s), 8 queries , File On.

Powered by Audio app

快速回复 返回顶部 返回列表