1引言
当前随着数字视频技术的发展,数字视频数据量成爆炸式增长,进而对数字视频版权保护与内容管理技术产生了迫切的需求。基于内容的视频拷贝检测(content-basedvideocopydetection),简称视频拷贝检测,作为一项重要的数字视频版权保护与内容管理技术,逐渐成为国内外研究的热点。视频拷贝检测的任务描述是给定若干查询的视频片段,在视频数据库中进行查找,检测是否存在相应的视频片段与查询视频片段内容相同;如果存在,查询视频片段就被称为视频拷贝片段。视频拷贝片段可以直接来自源视频,也可能是对源视频经过各种拷贝攻击而得,这些攻击包括片段组合、重新编码、画面图像的颜色、对比度、分辨率变化等。虽然经过拷贝攻击,但是拷贝视频与源视频在内容上是一致的,拷贝检测技术需要能够容忍这些拷贝攻击。
当前,解决数字视频版权保护问题的主要技术是数字水印(digitalwatermarking)和拷贝检测。数字水印技术是将水印信息(如数字、序列号、文字等版权信息)嵌入数字视频内,成为源数据不可分离的一部分,既使通过压缩、数/模转换、改变文件格式等操作,设计顽健的水印也能继续存在;并且在需要的时候将嵌入的水印信号提取出来,用来判别对象是否受到保护,以达到版权保护的目的。拷贝检测是从一个视频对象中提取出感知特征,作为数字签名(digitalsignature);内容相同的视频对象具有相同的数字签名,内容不同的视频对象生成数字签名不同。因此数字签名可以作为视频对象本身的身份标识,应用于数字视频版权保护。与数字水印相比,拷贝检测的主要优势在于:在视频对象发布前,无需人工在视频对象中嵌入附加信息,数字签名可以在视频发布之后进行[1]。
视频拷贝检测是基于视觉内容来判断不同视频是否具有相同内容片段,实现对特定视频内容的搜索、检测和跟踪。除了版权保护之外,拷贝检测可应用于视频搜索与视频数据库中的去冗余、指定有害内容视频的检测与过滤、商业视频的数据挖掘与跟踪等方面,具有巨大的应用需求和市场应用前景。
在视频拷贝检测技术领域,当前国内外的研究重点是寻找各种复杂的特征提取方法来提高拷贝检测对于各种拷贝攻击手段的顽健性。然而在实际应用中,最需要解决的问题是在大规模数据下,在保持对常见攻击手段的顽健性的同时,如何显著提高拷贝检测的速度。目前针对这个问题,国内外的研究成果还比较少。本文聚焦于拷贝检测速度的提升,提出了一种压缩域快速拷贝检测方法。
本文接下来的内容安排如下:第2节介绍相关国内外研究工作,第3节详细介绍本文所提出的算法,第4节给出实验结果,第5节为结束语。
2相关研究工作
视频拷贝检测的实质在于判断不同的视频片段是否具有相同的内容,现有的视频拷贝检测方法多采用基于帧匹配的框架:分别从待匹配视频片段中选取一系列代表帧,然后通过比较代表帧序列的相似度,来判断待匹配视频片段是否具有相同内容。
当前的拷贝检测主流方法区别在于特征的选取和匹配算法的不同,但是这些方法基本上都是在像素域上进行。在文献[2,3]中使用图像分块颜色直方图特征进行图像相似度比较,这种方法简单,检测速度较快,但是此类的特征对于画面图像的颜色、对比度变化比较敏感,对于许多拷贝攻击缺乏顽健性。为了解决这样的问题,一些研究学者提出了基于顺序度量(OM,ordinalmeasures)特征的拷贝检测方法。OM特征起初应用于立体图像匹配,它不强调2个度量之间大小比率,而是强调它们之间的次序。在文献[4]中论述了如何应用OM方法来检测经过各种拷贝攻击后的视频拷贝,在文献[5]中提出了一种结合时序信息的OM方法,它方法的性能优于普通的OM方法,对于各种攻击具有更好的顽健性。在文献[6]中指出:与颜色和运动等特征相比,基于OM特征的方法是目前性能最好的拷贝检测方法。为了进一步解决对于更加复杂攻击(如画中画、摄像机录制等)情况下的拷贝检测问题,一些学者又提出了基于局部特征描述算子的拷贝检测方法,例如在文献[7]中Joly等人把局部特征算子—Harris算子用于关键帧匹配。基于局部特征描述算子的方法虽然能够获得很高的匹配与检测精度,但是计算复杂度比较高,无法实现大规模数据集下的快速检测。
如何在大规模数据集下,显著提升拷贝检测的速度?这是一个必须面对的实际应用问题,目前已经开始引起国内外研究学者的关注。在文献[3,8]中都提出了分级匹配的方法,使用2级匹配策略来加快检测速度。另外在文献[3]中,还引入了R*索引技术为数据库中的视频特征建立高维索引,以进一步加快匹配搜索的速度。
目前已有的拷贝检测方法基本上都是在像素域上进行的,缺乏有效的压缩域检测方法。在压缩域上进行拷贝检测,不仅可以显著减少查询视频解码的计算量,而且可以利用压缩域数据特性降低特征提取的计算量,从而提升拷贝检测的速度。
3压缩域视频拷贝检测算法
本文所提出的压缩域视频拷贝检测算法基于分级匹配的框架,采用压缩域上离散余弦变换(DCT,discretecosinetransform)系数顺序度量特征进行相似度匹配,显著减少输入视频解码操作;并为DCT系数顺序度量特征建立倒排索引,以加快第1级匹配的速度。
3.1压缩域DCT系数分析
为了有效地存储和传输数字视频,一般通过消除视频内的空域相关性和时域相关性来对视频进行压缩。在当前主要的视频压缩标准(如MPEG-1/2/4和H.261/3等)中,基本采用DCT+运动补偿的压缩框架,DCT变换用来消除视频帧内的空域相关性,运动补偿用来消除视频帧间的时域相关性。在压缩视频序列中一般存在3种帧的类型:I帧、P帧和B帧,I帧可以独立编码解码,而P帧和B帧需要参考相邻的I帧或P帧才能进行编码和解码。
对于I帧,首先在像素域上将其划分为若干互不重叠的8×8像素块,而后对每个8×8像素块进行DCT变换,得到频域上的DCT系数,实现能量向低频系数的聚集,以此来消除空域相关性。8×8DCT变换公式如下
其中,f(x,y)(0≤x,y≤7)代表8×8像素块的亮度值,F(u,v)(0≤u, v≤7)为该像素块的DCT系数,u是水平频率,v是垂直频率。每个DCT系数F(u, v)都是该块中所有像素亮度值的线性组合,其中F(0,0)为直流分量(被称为DC系数),其余系数为交流分量(被称为AC系数)。DC系数F(0,0)反映了该像素块的平均亮度,而AC系数则反映了在不同方向上的亮度值变化及变化率。
对于P帧或B帧,首先通过运动补偿预测,根据相邻的I帧或P帧,形成对当前P帧或B帧的预测图像,当前帧图像与预测图像相减得到残差图像,残差图像将划分为若干互不重叠的8×8块,对残差图像每个8×8块进行DCT变换,得到P帧或B帧的DCT系数。对于P帧或B帧中的一个8×8DCT系数块,可以定义其能量值E
8×8DCT系数块的能量值E反映了该DCT系数块所对应的P帧或B帧图像区域与相邻参考帧的时域相关性,E值越小,时域相关性越强,E值越大,时域相关性越弱。
3.2基于I帧的第1级匹配
在本文所提出的拷贝检测算法的第1级匹配中,仅抽取查询视频和数据库中视频的I帧进行匹配,采用I帧DC系数顺序度量特征作为相似度度量特征,同时为了加快匹配速度,对数据库视频I帧的DC系数顺序度量特征建立倒排索引。
3.2.1I帧DC系数顺序度量特征
对于一个I帧图像,将其等分成3×3共9个区域Ai(i=0,…,8),如图1(a)所示;对于每个区域Ai,根据该区域所涉及的所有8×8DCT块的DC系数F(0,0),计算其平均DC系数值: