其中,aj(j=0,…,N−1)代表I帧图像中的一个DCT系数块(该图像中共有N个DCT系数块),Fj(0,0)为DCT系数块aj的DC系数。区域Ai平均DC系数值反映了该区域的平均亮度。
获得了9个区域的平均DC系数值后(如图1(b)所示),将这些平均DC系数值按大小进行排序,形成排序矩阵(如图1(c)所示),这个排序矩阵就是I帧DC系数顺序度量特征。
图1I帧DC系数顺序度量特征
3.2.2DC系数顺序度量特征的倒排索引
在许多应用场合中,数据库中视频数目是巨大的,进而全部I帧图像的数目将是海量的。如果不对数据库中的I帧图像特征建立有效索引,每个查询视频的I帧都要和数据库中的每个I帧进行匹配,这样严重影响拷贝检测的速度。为了解决在海量数据情况下拷贝检测的速度问题,本文借鉴文本检索中的倒排索引技术,将其引入到所提出的拷贝检测算法,应用于第一级匹配。
首先通过表1中的一个例子介绍一下文本检索中的倒排索引技术。在表1中给出了6个文档及其序号,表2针对所选择的一些关键词而建立起的对应倒排索引。在这个倒排索引中,针对每个关键词给出了包含此关键词的文档序号;这样当输入这些关键词进行检索时,将能够很快检索出包含这些关键词的文档。
借鉴这样的思想,可为I帧的DC系数顺序度量特征建立倒排索引,建立方法可以通过图2及表2中的例子来说明。假设有2个视频V0、V1,每个视频各有3个I帧,分别为f00、f01、f02和f10、f11、f12,每个I帧的排序矩阵在图2中给出,根据这些排序矩阵得到的DC系数顺序度量特征倒排索引在表3中给出。
图2 2个视频的排序矩阵
表3 为图2中的排序矩阵建立倒排索引
为视频数据库中的全部I帧的DC系数顺序度量特征建立倒排索引后,对于查询视频的每个I帧,可以在倒排索引中搜索出与其相匹配的视频数据库中的I帧,并利用投票表决的方法得到与查询视频相匹配的候选视频集合(来自于视频数据库)。
3.3基于图像组第2级匹配
通过第1级匹配,可以得到与查询视频相匹配的候选视频集合,还需要将查询视频与候选视频进行进一步匹配,来最终确定查询视频是否为视频数据库中的拷贝。
与第1级以I帧为基本单元进行匹配不同,本文在第2级匹配中以图像组(GOP,groupofpicture)为基本单元进行匹配。在压缩视频中有3种帧的类型:I帧、P帧和B帧,一个GOP由一串IBP帧组成,起始为I帧,GOP的长度是一个I帧到下一个I帧的间隔,一般用N表示(图3中N=9),在一个GOP中有一个I帧和若干个P帧(在图3所示的GOP中有2个P帧)。
图3一个GOP例子
设Vq为查询视频,Vc为一个候选匹配视频,Vq中的一个GOP为Gq,Vc中的一个GOP为Gc,下面将阐述如何计算Gq和Gc间的相似度。
在Gq中,一个I帧为Iq,有mq个P帧:{Piq,1≤i≤mq};在Gc中,一个I帧为Ic,有mc个P帧:{Pjc,1≤j≤mc},I帧Iq和Ic的DC系数顺序度量距离为
其中,rIq和rIc分别为I帧Iq和Ic的DC系数顺序度量特征的排序矩阵,W为排序矩阵尺寸,C为2个排序矩阵的最大距离,在本文中W=9,因而C=20。在计算Piq和Pjc相似度距离时,所采用的特征为P帧DCT系数能量顺序度量特征。P帧DCT系数能量顺序度量特征的计算方法与I帧DC系数顺序度量距离特征的计算方法类似,唯一区别在于:将初始输入参数由I帧的DCT块的DC系数改变为P帧的DCT块能量值E,为了加快E的计算速度,在此对式(2)进行修正,舍弃了部分高频DCT系数
进而P帧Piq和Pjc的DCT系数能量顺序度量距离为
其中,和分别为P帧Piq和Pjc的DCT系数能量顺序度量特征的排序矩阵。
在此基础上就可以得出Gq和Gc间的相似度度量距离:
(7)
其中,α为加权参数,如果D(Gq,Gc)小于设定阈值T,即可认为Gq和Gc相匹配。如果在Vq中,时域上连续3个GOP都可以在Vc中找到匹配的GOP,即可认定Vq是Vc的一个拷贝。
4实验结果
在实验中,数据库中的视频来自于TRECVID2008年拷贝检测评测[9]所使用的数据集,共有101个视频文件(每个视频时间长度30s~2h不等),总时长在58h左右。全部视频都是以MPEG-1格式压缩,分辨率为352×288,帧率为25帧/s。在创建查询视频时,从数据库的视频中截取4个视频片段(每个视频时间长度在6~10min不等),对这4个视频片段分别施加5种拷贝攻击:2倍快进、对比度降低、画面模糊、改变分辨率、改变画面长宽比,这样共形成20个拷贝查询视频(总时长为3h6min42s)。另外,从TRECVID2007高层语义概念检测的测试视频中截取20个视频片段(总时长为2h50min12s),构成20个非拷贝查询视频,因此总共查询视频为40个(总时长为5h56min54s)。