探究影像辨识里的脸部
本文作者:admin
点击:
2007-08-13 00:00
前言:
上期我们谈到了由上往下的方法,除此方法外,由下往上的特征式方法亦多有人研究,有关这些方法我们将在本期为各位介绍。
(二)由下往上的特征式方法(Bottom-up Feature-Based Methods)
另一种与知识式由上往下(Top-down)作法不同的方法,是由下往上(Bottom-up)的建构方式。在这种由下往上的研究方法里,研究者尝试先找出(或定义出)一些脸部不变特征(invariant features)。而其所使用的假设便是基于生物视觉空间特征,当人类眼睛可以不费吹灰之力便能辨识不同姿势及光线条件之脸部位置,这之间必定存在一些脸部不变特征,使我们的视觉得以快速索引对应。在人类视觉能快速辨识脸部或物体的另一项重大变因,乃在于生物视觉蛋白的快速构型(conformation)变化(分子处理信息的速度)与讯息传导(signal transduction),以大脑视觉区域的分子变化来说,其速度之快为目前超级计算机的100倍。其次,人类视觉模型仍存在不可探知的区域,换句话说,我们并非完全了解生物视觉的运作原理。因此在此类研究里面,其前提假设的不完全是其中一项重大缺陷,但这种缺陷却因为未必需达完全相同,只需逼近便能产生重大利益的吸引之下(只需达生物视觉系统一小部分,其效能可能就已经超越目前许多视觉辨识的算法),仍吸引许多研究者投入相关研究。生物分子的信息传递链与活性位置形状(active site motif)变化在此我们并不打算讨论,我们在此倾向于关心目前许多相关提议的方法里其运作原理与效能。在目前许多由下往上的侦测方法里面,大多数算法是先侦测脸部特征是否存在,然后再决定脸部区域是否存在。因此在此类方法里,脸部特征的撷取变成处理的第一步骤(在由上往下的方法里,它是第二步骤,主要用以验证脸部候选区域之用)。而脸部特征的撷取方法有许多种,包含了:色彩空间转换分析、脸部边界投影方法以及利用边界侦测器(edge detectors)方法…等等。这些脸部特征候选区域一旦被撷取之后,预先定义的统计模型(statistical models)便会针对这些候选区域进行检验,以检测这些脸部特征存在脸部的距离是否合乎常态。不过此种方法和前面几种方法一样,都存在有许多待克服的问题,其中包含:光照条件、噪声或是其它像素融合问题,都会严重影响到脸部特征的辨识。
直觉式脸部侦测方法
前面我们看过很多脸部侦测方法,其大多数可分成两个执行步骤。因此依据执行程序,一个脸部侦测的演算模块可以区分成两大块,一个是“脸部定位(face localization)”,一个是“脸部特征侦测(facial features detection)”,为了方便说明,在此我们使用最常见的肤色(skin-color)侦测方法来作为探讨基底。因为没有任一家的影像感应器是完美的,所以当一个影像进入之后,大多数都要先修正影像的色彩(color correction),这个过程我们称为“偏移色彩移除(bias color remove)”、“白平衡技术(white balance)”或“光线补偿技术(light compensation technique)”。做完色彩修正后,影像就要转换到特定的色彩空间(color space)进行处理。在色彩空间部分我们有多种选择,但并每一种都适合使用。许多脸部辨识的研究都将luminance与chrominance视为独立分开的两个因素,但2002年R. L. Hsu及A. M.Mohamed等人,利用HHI(Heinrich-Hertz-Institute)影像数据库实验的结果发现,亮度(luminance)与色度(chrominance)存有“非线性(non-linear)”的关连性部分。而J. C. Terrillon、M. N. Shirazi等人在比较了多种适用脸部侦测之色彩空间后,认为TSL(Tint-Saturation-Luma)空间提供了最佳的侦测结果。不过,目前除TSL空间外,因为现行的视讯压缩标准(例如:MPEG或JPEG)大多以YCbCr色彩空间为主,因此YCbCr色彩空间也常被用来作为脸部侦测的色彩空间。不过YCbCr色彩空间被使用的另一个主因,在于它与TSL色彩空间类似都把亮度(luminance)及色度(chrominance)分开处理,这有助于肤色丛集化(skin clustering)的工作。一旦影像被转换到所选定的色彩空间之后,肤色像素的测定主要是利用转换色彩空间的椭圆肤色模型(elliptic skin model)。经过参数化的椭圆部分(parametric ellipse),主要是对应肤色高斯分布(Gaussian distribution)下的Mahalanobis距离(Mahalanobis distance)。Mahalanobis距离法与其它方法(例如:最邻近法(nearest neighbor)、平均距离法(mean distance)或最近特征线法(nearest feture line))一样,都属子空间的距离判别方法。肤色像素的侦测,主要是依据邻近像素颜色的变异以及色彩相似度(similarity),并参考这些像素的空间排列,以决定是否群组化(grouping)这些像素,使其成为脸部区域。一般影像中脸部的大小多为固定,而其包含的像素多寡则依据相机分辨率与距离远近而定。在脸部色彩区域判断后,进一步搜寻脸部特征(例如:眼睛、鼻子、嘴巴或脸部边缘),将有助于双重确认脸部区域的所在。其侦测流程图如图10所示。
光线补偿与肤色侦测方法
因为肤色的呈现与当时光线色温有很大关系,因此在处理肤色程序之前,必须要作两件的事情,一个是定义肤色范围,另一个是光补偿(即是白平衡)。肤色定义因人种不同而易,如果同时采用多种定义(例如:黄种人、黑人或白种人的肤色定义),亦可能让脸部侦测的判别更加复杂并降低准确率。通常在这种情况下,直觉式的方式就是以case-by-case的方式进行处理。为使往后肤色搜寻更加精密,我们必须先对不同色温下的影像进行白平衡(white balance)的处理。为了使颜色的补偿正规化,通常此我们需要定义“参考白(reference white)”,其设定方式是以经过非线性的gamma校正后,最高luma值的前5%像素平均值做为参考白。在这5%的参考白像素里面,我们可以定义极端值的影响门坎(例如:每个像素Luma值都至少要大于110),以作为影像是否进行比例色彩偏移的依据。有了参考白之设定之后,其参考白平均值(Rw)再由现值移向255最大值,而每一个色彩组件,便依序乘上比例作线性延展的动作,以消除原先色彩偏移的效果。为避免错误处理,如果一幅影像未达参考白的定义门坎,则该影像便不被白平衡所处理。而为了为将肤色模型化,通常的作法是先择一适当的色彩空间进行丛集化的过程处理,经过一些研究显示,并非所有色彩空间都是适合使用的(例如:正规化的red-green空间(R-G space)便不是非常适合用来作脸部侦测时使用)。
脸部特征的定位
在众多脸部特征里面,最明显者莫过于嘴、鼻、口这三项,这些位置的信息也可被用评估头部3-D位置的依据。在许多目前使用的眼睛定位方法里面,大多数方法属模版式(template-based)的定位方式。为使脸部特征获得初步定位,我们可以利用影像中的luma及chroma来定位眼睛、口、鼻或是脸部边界。在脸部侦测里面,我们所在意的是脸部区域的所在,而这些区域可能是由一群肤色区域(skin-tone region)像素所群组化的结果。
一、眼睛的部分
因为眼睛周围有较高Cb值但低Cr值,且通常包含有较暗以及较亮的像素,所以我们可利用这些特性,分别从单张影像的YCbCr色彩空间里,候选可能存在的眼睛区域。因此当我们在处理眼睛的定位时,我们通常会先将影像转换到特殊色彩空间(color space),在此我们使用的是色彩空间。然后利用临界值阀设定粹取影像特征后,再利用二元型态运算子(binary morphological operators)来强化眼睛标记,并抑制其它脸部特征的出现。所以为了确定眼睛存在的区域,可以结合luminance组件特性与chrominance组件特性,来作为眼睛影像候选的依据。因此我们会得到两张眼睛候选影像,一个从luminance组件而来,另一个来自chrominance组件。由这两个分开的组件所侦测到的eyes map,最后经由结合之后成为最后眼睛侦测的候选影像。在luminance组件内眼睛区域的判断方法,可依据灰阶型态运算子(grayscale morphological operators),例如:dilation或erosion,来强化眼睛周边较暗或较亮区域,这种方法在多重尺度缩放的正面脸部验证上也常被用来建构脸部特征向量(face features vectors)。在此方面的建构方式有多种不同方法,例如:R. L. Hsu及A. M. Mohamed等人便利用P. T. Jackway与M. Deriche所提出的缩放空间影像(scale-space image)方法,来计算luminance的眼睛部分影像区域。其计算方式如下:
其中乃Jackway与Deriche在缩放空间属性中所定义之缩放尺度为的平滑核心(smoothing kernel),且式中的“”与“”号分别表示了灰阶值的dilation及erosion。而关于chrominance组件内眼睛区域的判断方法,可依据下式:
其中,为负值;而、及均是经过正规化(normalization)的数值,其范围在0~255之间。来自chrominance的眼睛图案在经过histogram equalization之后,便利用AND运算与来自luminance的影像结合起来,结合后的结果分别将眼睛部分予以扩张化、屏蔽化以及正规化,以加强眼睛周边亮度并抑制脸部其它特征,以构成眼睛区域的候选图。
二、嘴巴部分
相较于其它脸部特征区域,嘴巴区域含有较强烈的红色元素,即是在YCbCr色彩空间中,其Cr强度会比Cb强。R. L. Hsu及A. M. Mohamed研究发现,嘴巴的部分对Cr /Cb的反应性较低,但对Cr2有较高的反应性。利用此特点,嘴巴区域的估算方式可以如下式表示:
其中参数μ主要是用来评估Cr2与平均Cr /Cb之比例关系,其计算方式如下:
其中σ为参数常数,可依据需要来调整(例如:设定σ=0.85~0.95之间),并且与均已经过正规化,其范围为0~255之间。
三、脸部边界
之前我们已经针对眼睛及嘴巴的部分确认了候选区域,不过为确认眼睛及嘴巴区域的正确性,一般都会作双重确认。首先先要确定眼睛或嘴巴区域的luma变异程度以及其平均梯度方向(average gradient orientation),其次是确认眼睛及嘴巴候选区域所形成的几何形状是否呈现倒三角形。如果要在更确认一点,可以在利用椭圆侦测来确认脸部边界,并确定此三角形是否在所侦测的椭圆范围内。等确定之后,这些候选区域便会开始进行投票(包含眼睛、嘴巴区域,以及椭圆投票(ellipse vote)),并针对脸部特征、对称性与方向进行评分。因为我们已经知道眼睛及嘴巴的位置,所以利用这些位置形成的几形状可以帮助我们确认脸部走向或摆头姿势。
经由眼睛、嘴巴与脸部边界的其它脸部特征判定,可以协助我们更精确判别脸部候选区域的正确性。只是这三者的撷取方法各家多有不同,因此精确度也多有所差异。如果只是要用在初步定焦(例如:数字相机脸部定焦功能),选择效率可能是主要考虑点。但如果是用在生物辨识安全领域,那精确度与提供辨识特征可能主要该种系统诉求。不同的应用领域,其对脸部侦测的效能与系统评价有会有所差异。
不妨给未来一个想象空间
脸部侦测与辨识的技术需求在美国遭受重大911恐怖攻击之后,呈现爆炸性的成长,在机场使用生物辨识技术的影子随处可见。在生物辨识领域其并非只有指纹辨识系统,其它生物辨识系统还包含语音辨识、脸部辨识以及虹膜辨识(iris recognition)…等等,而目前技术较高且精确性也高的生物辨识要属虹膜辨识系统。但因为脸部辨识不需接触,且处于被动安全防御体系,被侦测者可能根本就没察觉自己已进入生物辨识系统,因此脸部辨识技术的使用与研究目前还非常热络。脸部侦测技术看起来似乎简单,但经由前面的论述便可知,如果真要实作起来却不见得简单(为了维持高侦测率、执行效率与低错误,其需要考虑很多问题)。正如几年前许多不被看好的技术,意外的在今日却逐渐占有重要地位。或许在10年前,生物机电显得遥不可及。但谁知在10年之后,生物机电整合出现希望的曙光。除了液晶屏幕的例子之外,人工视网膜(或称为“视网膜芯片(retina chip)”)的设计也是另一项壮举。在传统认知上,生物神经传导属离子脉冲,其利用离子极化与去极化反应,描绘神经所接受的信号形式(神经轴内部维持低电压约70 mV)与一般电子信号有所差异。令人觉得不可思议的部分,在于错综复杂的电子信号与离子信号的转换对应关系。因为这种对应关系一旦找到,非但盲者可重见光明,连下肢瘫痪之小儿麻痹患者或其它因神经传导断裂而瘫痪之病患也将可能因重新取的传导讯号而有限度恢复行动力。人工视网膜主要研究团队来自美国南加大以及Doheny眼科研究所,在他们目前实验中经由植入人工视网膜到部分盲人眼里,已经让这些盲人可以重新感觉到光线及物体移动,这项研究成果就在2005年宣布时,造成许多人不少震撼。人工视网膜构造与机器视觉非常类似,比较重要的差别在于对讯号的处理型态与机器种类。在人工视网膜芯片的搭配上面,其由一副内植一部小型摄影机的太阳眼镜负责撷取影像,而摄影机之感应讯号乃经由4×4网格电极(grid of electrodes)与患者视网膜上受损之锥细胞(cones)及杆细胞(rods)相连结。这些网格电极将被用来模拟光接收器(photoreceptors)并经由光学神经将讯号转换给大脑。想到这里,突然让笔者心里有种踏实感,因为科技终于可以用在比较有意义又接近人本思想的事情上面。正如几年前争论不休的量子计算机、量子运算一样,一部份人持肯定说,另一部份人持否定见解。不过如按照历史来看,其答案如何似乎已经呼之欲出。科学可以帮助的不只是盲人,一次一个像素的建构精神化不可能为神奇。人工视网膜(artificial retina)如果运作的不错,该产品预料将在3年之内成为可贩卖之商品。可见创意永远是人类最珍贵的资产(机器可能继承此智慧?),未来机器视觉及其它人工智能如果发展成熟,则机器人亦可能成为人类另一个重要伙伴(例如:机器战警?)。如同人类一样,或许初生机器亦需上课、学习新知,“我的同学(老师)是机器”在未来可能成真,面对先进的未来,我们需要多给自己一点想象空间。