压缩域快速视频拷贝检测算法--短文--通信世界网

其中，aj(j=0,…,N−1)代表I帧图像中的一个DCT系数块（该图像中共有N个DCT系数块），Fj(0,0)为DCT系数块aj的DC系数。区域Ai平均DC系数值反映了该区域的平均亮度。

获得了9个区域的平均DC系数值后（如图1（b）所示），将这些平均DC系数值按大小进行排序，形成排序矩阵（如图1（c）所示），这个排序矩阵就是I帧DC系数顺序度量特征。

图1I帧DC系数顺序度量特征

3.2.2DC系数顺序度量特征的倒排索引

在许多应用场合中，数据库中视频数目是巨大的，进而全部I帧图像的数目将是海量的。如果不对数据库中的I帧图像特征建立有效索引，每个查询视频的I帧都要和数据库中的每个I帧进行匹配，这样严重影响拷贝检测的速度。为了解决在海量数据情况下拷贝检测的速度问题，本文借鉴文本检索中的倒排索引技术，将其引入到所提出的拷贝检测算法，应用于第一级匹配。

首先通过表1中的一个例子介绍一下文本检索中的倒排索引技术。在表1中给出了6个文档及其序号，表2针对所选择的一些关键词而建立起的对应倒排索引。在这个倒排索引中，针对每个关键词给出了包含此关键词的文档序号；这样当输入这些关键词进行检索时，将能够很快检索出包含这些关键词的文档。

借鉴这样的思想，可为I帧的DC系数顺序度量特征建立倒排索引，建立方法可以通过图2及表2中的例子来说明。假设有2个视频V0、V1,每个视频各有3个I帧，分别为f00、f01、f02和f10、f11、f12，每个I帧的排序矩阵在图2中给出，根据这些排序矩阵得到的DC系数顺序度量特征倒排索引在表3中给出。

图2 2个视频的排序矩阵

表3 为图2中的排序矩阵建立倒排索引

为视频数据库中的全部I帧的DC系数顺序度量特征建立倒排索引后，对于查询视频的每个I帧，可以在倒排索引中搜索出与其相匹配的视频数据库中的I帧，并利用投票表决的方法得到与查询视频相匹配的候选视频集合（来自于视频数据库）。

3.3基于图像组第2级匹配

通过第1级匹配，可以得到与查询视频相匹配的候选视频集合，还需要将查询视频与候选视频进行进一步匹配，来最终确定查询视频是否为视频数据库中的拷贝。

与第1级以I帧为基本单元进行匹配不同，本文在第2级匹配中以图像组（GOP，groupofpicture）为基本单元进行匹配。在压缩视频中有3种帧的类型：I帧、P帧和B帧，一个GOP由一串IBP帧组成，起始为I帧，GOP的长度是一个I帧到下一个I帧的间隔，一般用N表示（图3中N=9），在一个GOP中有一个I帧和若干个P帧（在图3所示的GOP中有2个P帧）。

图3一个GOP例子

设Vq为查询视频，Vc为一个候选匹配视频，Vq中的一个GOP为Gq，Vc中的一个GOP为Gc，下面将阐述如何计算Gq和Gc间的相似度。

在Gq中，一个I帧为Iq，有mq个P帧：{Piq,1≤i≤mq}；在Gc中，一个I帧为Ic，有mc个P帧：{Pjc,1≤j≤mc}，I帧Iq和Ic的DC系数顺序度量距离为

其中，rIq和rIc分别为I帧Iq和Ic的DC系数顺序度量特征的排序矩阵，W为排序矩阵尺寸，C为2个排序矩阵的最大距离，在本文中W=9，因而C=20。在计算Piq和Pjc相似度距离时，所采用的特征为P帧DCT系数能量顺序度量特征。P帧DCT系数能量顺序度量特征的计算方法与I帧DC系数顺序度量距离特征的计算方法类似，唯一区别在于：将初始输入参数由I帧的DCT块的DC系数改变为P帧的DCT块能量值E，为了加快E的计算速度，在此对式(2)进行修正，舍弃了部分高频DCT系数

进而P帧Piq和Pjc的DCT系数能量顺序度量距离为

其中，和分别为P帧Piq和Pjc的DCT系数能量顺序度量特征的排序矩阵。

在此基础上就可以得出Gq和Gc间的相似度度量距离：

(7)

其中，α为加权参数，如果D(Gq,Gc)小于设定阈值T，即可认为Gq和Gc相匹配。如果在Vq中，时域上连续3个GOP都可以在Vc中找到匹配的GOP，即可认定Vq是Vc的一个拷贝。

4实验结果

在实验中，数据库中的视频来自于TRECVID2008年拷贝检测评测[9]所使用的数据集，共有101个视频文件（每个视频时间长度30s~2h不等），总时长在58h左右。全部视频都是以MPEG-1格式压缩，分辨率为352×288，帧率为25帧/s。在创建查询视频时，从数据库的视频中截取4个视频片段（每个视频时间长度在6~10min不等），对这4个视频片段分别施加5种拷贝攻击：2倍快进、对比度降低、画面模糊、改变分辨率、改变画面长宽比，这样共形成20个拷贝查询视频（总时长为3h6min42s）。另外，从TRECVID2007高层语义概念检测的测试视频中截取20个视频片段（总时长为2h50min12s），构成20个非拷贝查询视频，因此总共查询视频为40个（总时长为5h56min54s）。