首页 >> 视频通信 >> 技术 >> 正文
面向互联网视频的人体皮肤区域检测
2009年4月28日 14:44    通信学报    评论()    

    1引言

    人是视频图像活动对象的重要的主体之一,皮肤是人体最显著的生理特征之一,皮肤区域检测已经成为提取视频中人体语义概念的重要技术基础。皮肤检测一方面是人脸检测和跟踪、人体姿态识别等应用的基础和关键步骤;另一方面,由于互联网上大量包含敏感色情内容的图片和视频,对人们特别是青少年产生了不可忽视的毒害作用,而采用图像内容分析技术来过滤可能的色情图片是有效的解决方案,其中,皮肤检测是至关重要的一个步骤。本文研究面向互联网视频的皮肤区域检测技术,为各类视频中人体语义概念提取应用提供技术基础。

    图像和视频中的皮肤区域检测具有许多共同的技术基础,就其本质来说,视频中皮肤区域检测是对时间轴上连续的多帧图像进行皮肤区域检测,通常可利用多帧图像的检测结果,综合判定皮肤区域,有可能降低误判率。然而,视频图像的分辨率较低,特别是面向在线播放业务的视频内容,其中80%以上分辨率仅在QVGA(320×240)左右,而且压缩比高,图像质量较差,因此,就单帧视频图像的皮肤区域检测来说,其面临比图像检测更大的挑战,传统的皮肤区域检测技术对网络视频图像往往会有较高的误判率或漏判率。

    2相关工作介绍

    皮肤区域检测技术属于基于内容的图像检测技术(CBIR,content-basedimageretrieval)范畴,跟其他CBIR一样,都是对某个对象或概念的抽象描述,这种抽象一般很难有一个完整标准的定义,因此要将概念转换成算法,就不可能只从单一的特征着手。因此,皮肤区域检测,通常都会用到多项特征,例如颜色、形状、面积、纹理等。

    基于统计的肤色检测是皮肤区域检测的基础,主要步骤是颜色空间变换和肤色建模。肤色的统计特征在不同颜色空间会有不同的呈现,选择颜色空间本身就是选择肤色检测的最基本特征表示,研究分析结果表明颜色空间的变换并不能改善肤色紧致性、肤色和非肤色可分辨性以及分类等性能,但RGB及线性变换空间却具有较好的类可分辨性和分类性能[1]。

    肤色检测的相关理论,文献[2,3]中做了较好的综述,这里再做简要总结。通过训练样本集建立肤色模型是肤色检测的关键,根据不同应用可以将肤色建模分为静态和动态2类。目前常用的静态肤色建模基本方法有3种:肤色范围、高斯密度函数估计和直方图统计,3者分别对应阈值化、参数化和非参数化方法。

    用数学表达式明确规定肤色范围是一种简单的肤色建模方法,例如Chai采用YCbCr颜色空间的CbCr平面,如果输入像素的颜色落入RCr=[133,l73]和RCb=[77,127]限定的矩形区域,则判定属于肤色像素[4]。其优点是算法简单,非识别准确率不高。

    高斯密度函数估计是一种参数化建模,可以用单峰高斯模型SGM[5]或高斯混合模型GMM[6],并依靠模型计算像素点为肤色点和非肤色点的概率,根据概率大小判定是否属于肤色点。

    直方图肤色模型是一种非参数模型。利用肤色样本的直方图统计可以构造肤色概率图,它为离散化的颜色空间中的不同区域赋予不同的肤色概率值,将输入像素点转换到与之相同的颜色空间,然后在肤色概率图中查找它所处区域属于肤色点的概率,以判决它是否为肤色点。与此不同,贝叶斯分类器则同时利用肤色样本和非肤色样本的概率图,通过这2个先验概率,利用贝叶斯来计算获得像素点为肤色点的概率[7],由于该方法同时使用了正反样本,理论上可获得更好的分类效果。然而,样本的选择是影响直方图肤色模型性能的决定因素,必须要选择典型的样本,否则样本会呈指数式增长。

    肤色的动态建模方法可以分成2类:第一类方法是可以将肤色模型参数调节到适应某幅静态图像;第二类方法是针对序列图像,能适应成像条件随时间的变化。这些自适应方法所建立的动态肤色模型的通用性可能较差,但是在特定条件下的性能更优,能获得高检测率和低误检率。

    单纯以肤色进行皮肤区域的检测,有可能产生误判情形:类似皮肤颜色的对象或背景,比如沙漠、黄色的墙壁、沙发、地板、卡通场景对象等。因此,有必要引入更多的皮肤区域的特征,比如,利用Sobel边缘检测[8]和Gabor滤波获得皮肤纹理信息[9]来确定可能的皮肤区域;提取皮肤区域的颜色向量集中程度以滤除误检测的皮肤区域。利用这些综合特征信息,借助Adaboost算法自动学习皮肤区域的颜色、形状和纹理等特征,以建立更好的皮肤区域分类器,从而获得更精准的检测结果。然而,这些肤色检测方法在提高肤色检测准确率的同时也导致了检测速度严重下降,不适合实时性要求高的应用。

    本文充分利用互联网视频的特点,从改进皮肤区域检测入手,综合应用人脸检测和关键部位检测,有效提高了视频中皮肤区域检测的准确率和召回率,并尽可能保证检测算法的速度,以满足实时检测的需求。

    3本文工作

    为适应低分辨率和低质量视频中皮肤区域检测任务的需求,首先对现有肤色像素点检测算法改进,之后利用区域分布特性、基于灰度共生矩阵的纹理特性等特征进一步去除可能的误检区域,细化实际的皮肤区域。

    3.1改进的肤色检测

    互联网上视频图像受分辨率、码率限制,图像一般较差,尤其是视频分享网站中自拍视频,光线变化范围非常大。受这些因素影响,原肤色检测算法性能大打折扣,本文设计了一种改进的肤色检测算法。

    首先,选择合适的颜色空间。虽然,颜色空间的变换并不能从本质上改善肤色检测的效率,为了尽可能提高肤色检测的效率,选择在YUV空间进行肤色检测,其原因在于几乎所有视频编码标准都以YUV作为其标准的输入输出,无需进行额外的空间转换。

    其次,对视频帧图像进行预处理。对图像进行光线补偿、自动白平衡、自动伽玛矫正等预处理。预处理尤其对于互联网上自拍类视频的皮肤区域的检测有重要作用。这类视频受拍摄条件限制,光线、曝光度明显区别于专业摄制的视频,画面要么严重偏暗,要么过亮,或者受光线影响,皮肤区域严重偏色。预处理提高了这类视频中皮肤区域的检测的准确率和召回率,是关键步骤之一。

    接下来,建立YUV空间上的肤色模型。在YUV空间中,定义肤色色调,根据大量图像的彩色分析,可以确定人的肤色色调的变化范围。但是该模型也会把一些与人的肤色比较接近的其他区域当作肤色区域。例如该模型难以把肤色与棕色头发或灰色背景分开。为此,需要在YIQ颜色空间中滤掉其他成分。如图1所示,在YIQ空间中,I分量代表从桔黄到蓝绿的色调,I值越小,包含的黄色越多,蓝绿色越小,所以肤色在YIQ空间内I值在一个范围里变化,通过实验,确定其合适的参数范围,该参数可用于在自适应的肤色检测控制。

    应用该肤色模型,遍历图像中像素点,判定其为肤色点或非肤色点。对所有肤色点用线段编码的方式进行记录。该算法能够将连续的肤色点识别为同一个对象。同时将非肤色点像素重置为黑色,以便于后续处理。图2是处理前后的2帧图像实例。

    图1YIQ颜色空间中色度信号矢量图

    图2肤色点检测前后的图像比较

    3.2连通区域特性

    记录获得的皮肤区域是进一步提取视频中人体语义概念的基础。在肤色检测过程中,以线段编码算法记录可能的皮肤区域。

[1]  [2]  编 辑:石美君
[相关新闻]
[ 本站暂时关闭评论 ]
 
  推 荐 新 闻
  技 术 动 态
  通 信 圈