探究影像辨识里的脸部侦测技术(三)

本文作者:admin       点击: 2007-06-07 00:00
前言:

上期我们谈到表象式的侦测方法,其大多使用机器学习理论为之,且此方面的研究领域非常活跃。除了上期谈过的本征脸之外,还有分布式方法与马可夫隐藏模型等方法,我们将针对这些议题在继续往下来看。

分布式方法(distribution-based methods)

分布式的脸部侦测方法,使用的核心概念在于探讨影像中的对象类型(object classes)的影像模式分布。这种影像中的对象类型模式,可从正向或负向样本来学习。在这种方法里,其有两个重的组成,一个是“分布式的脸部/非脸部构成模型”;另一个“认知元分类器(perceptron classifier)”。其处理方法是先将脸部与非脸部样本,正规化成19×19像素的次影像,将每一个像素视为不同的个体差异为度。因此每个次影像将是一个具有19×19=361个维度的向量。随后,这些样式会利用k-means算法群组化为6个脸部及6个非脸部丛集,如图1。

每一个丛集可视为一个具有平均影像(mean image)及共变异矩阵(covariance matrix)的多维度高斯函数(Gaussian function)。
图2显示了K. K. Sung及T. Poggio的距离测量,系统会计算输入影像模式与原型丛集之间的两种距离,第一种距离是在测试样本与丛集质心(cluster centroid)之间的“正规化的Mahalanobis距离”;第二种距离是“欧基理德距离(Euclidean distance)”,它主要是用来计算不属于第一种距离的样式差异。此方法应用在分类脸部样式的最后步骤,便是利用“多层感知元网络(multilayer perceptron network)”来自非脸部区域,以12个距离数对来针对每一个脸部丛集或非脸部丛集进行分类。不过此方法有些弱点存在,那就是他的非脸部区域的信息收集能力会比较差一些。主要因素在于训练用的非脸部区域,均使用单一制式影像,而非各种不同的可能背景,因此若要提升系统在收集非脸部区域的能力,训练影像数据库的选择便很重要。在1997年B. Moghaddam及A. Pentland提出了一种在高维度空间中,基于影像强度评估同时辅以本征空间分解的一种机率视觉学习方法(probabilistic visual learning methods)。这些主分量(principal component)保留了数据上重要的线性关连性,并将向量空间分解成两个互斥但互补的次空间(即是principal次空间与orthogonal互补空间)。不果使用PCA方法并非全无缺点,因此方法并未预定一个适当的数据模型,所以其内所有数据次空间的点,其转码成本都是一样的。另一个缺点是PCA无法消除数据特征上的数据噪声,一旦PCA将输入数据的变异最大化时(噪声也被放大),其就可能产生不想要的变异存在。于是,另一种基于统计共变异结构模型的因子分析(factor analysis, FA)方法被广为讨论,并经B. J. Frey等人的研究发现,FA方法在脸部便是上的效能要比PCA方法好。随后在2000年时,M. H. Yang等人提出了一种类似PCA的混合因子分析(mixture factor analysis, MFA)的统计方法,来将高维度数据的共变异结构(covariance structure)模型化。在MFA里其参数的评估是采用EM算法(Expectation-Maximization algorithm),而其更详细的论述可参阅Z. Ghahramani与G. E. Hinton(1996)所提出的技术报告。在Yang等人提出的第一种方法里面,其使用费雪线性区别(Fisher’s Linear Discriminant, FLD)将样本由高维度的影像空间投影到低维度的特征空间,可能是因为FLD方法要比PCA方法提供了更好的投影能力,因此这种基于线性区别分析(Linear Discriminant Analysis, LDA)的方式,目前广被使用在脸部辨识的本征脸方法(eigenface methods)里。在其它方法里面,亦有利用Kohonen的自我组织地图(self-organizing map, SOM)来将训练用的脸部及非脸部样本分解成数个子类别(subclasses)。从这些相关的样本里,其会计算类别内及类别间的分散程度,并利用FLD来产生一个最佳化的投影。对每个子类别而言,其利用高斯方法来将密度模型化,而参数的评估亦采用最大可能性方法。当输入影像进入时,矩形扫描窗口会先扫是整个影像,在矩形窗口扫视的同时,其内的类别依存性机率亦同时会被计算出来。针对这些扫视结果,其利用最大可能性描述规则来决定是否有脸部区域被侦测到。根据实验数据显示,使用FLD-based的方法其脸部的侦测率可达90%以上。

隐藏马可夫模型(Hidden Markov Model)

隐藏码可夫模型(HMM)可被视为一种参数式的随机过程(parametric random process),此过程的参数评估是依据已定义好的规则与个别片段分别为之。而要将HMM应用在模式辨识问题上面,我们必须先定义模型其可能存在之大量隐藏状态。一旦这些隐藏状态定义完毕,我们便可利用样本的一连串改变来训练HMM学习传统机率。此训练的目标,在于自训练数据中最大化观察机率并利用Baum-Welch算法或Viterbi分节方法来适当调整模型参数。在HMM-based的脸部侦测方法里面,其将脸部模式视为一连串由像素组成之观察向量(observation vectors),如图3。

1994年的时候,F. Samaria及S. Young利用1-D及虚拟2-D HMMs来作脸部特征撷取与脸部辨识工作。他们的HMMs会探索脸部结构与状态移转(state transitions)的强制性(探索由上往下或由下往上依序进行),一旦有重要的脸部区域(例如:眼睛)被发现,这些区域会接着被指定到1-D的HMM状态里面。对于可能是脸部区域的候选地区,会经过Baum-Welch算法或Viterbi分节方法加以调整参数并加以分割候选投票,以判别脸部的存在与否。

类神经网络

类神经网络被应用在许多模式辨别的问题上面(例如:OCR、自动机器驾驶…等等),在此,脸部侦测可被视为两种类型的模式辨别问题,并有许多不同类神经网络架构被提出。使用类神经网络的优点之一,在于训练系统的可能性。通过训练,可使系统捕捉到较为复杂背景中的脸部模型。但他的主要缺点是,如果要使系统达到我们所要的能力,那将会需要一个由很多昂贵切换组件所组成的复杂网络架构。在早期T. Agui等人的研究里,其使用的是一种阶层式的类神经网络架构。该方法分成两阶段,第一阶段由两个平行的子网络组成,一个用以取得原始影像,另一个使用3×3 Sobel滤器取得过滤后的影像强度值。这些子网络的输出结果与撷取的特征值(例如:输入模式的像素值之标准差(SD)等),会接着进入第二阶段网络进行特征比对筛选。在第二阶段网络的输出,其将指出输入区域是否有脸部区域的存在。不过Agui的方法在应用上有一个较大的限制存在,那就是影像中的脸部区域大小需要一样,系统才能进行较正确的判别。

最早的脸部侦测之类神经网络方法是由M. Propp及A. Samal在1992年所提出的架构,此类神经网络乃由4个层级所组成,并具有1024个输入单元并有两个输出单元。除输入、输出单元外,尚存有两个隐藏层。第一个隐藏层由256个单元组成,第二个隐藏层由8个单元组成。而在脸部侦测研究里面关于使用类神经网络方法而有较重要地位者,要属H. Rowley、S. Baluja及T. kanade所提出的多重类神经网络方法。这种多层类神经网络方法可利用脸部影像及非脸部影像,来学习脸部及非脸部模式。其提议的方法里面,有两个关键成员。一个是多层类神经网络,另一个是决策模块。前者可用来侦测各种脸部模式,后者可从这些侦测结果中,作下最后候选决策,其架构图如图4。
在Rowley等人的方法里,其多层类神经网络可接受一个影像中20×20像素的影像区域,并对该影像区域输出一个介于-1~1之间的评分。如果分数接近-1,则表示该区域趋向非脸部区域;如果接近1,则表示该影像区域接近脸部区域。如果输入的影像脸部区域大于20×20像素,则该影像会被切割成20×20像素的子样本空间(subsamples),系统在对这些子样本空间一一进行前述评分。在决策模块里面,其主要是将这些多重网络的输出部分进行最后裁判。一个简单的裁判策略可通过基本的逻辑运作(AND/OR)来完成,而在改善效能方面,则可善用投票方式。不过Rowley等人的方法并非毫无缺点,其中一个主要为人诟病之处,在于其只能侦测一定角度的脸部区域(通常局限于正面脸部区域)。因此为了克服此问题,Rowley等人随后将此方法加以延伸并提出新的改良方式,但不幸的是,其提议之新方法侦测率低,因此终究未能被广为使用。除上述方法外,在1997年时S. H. Lin、S. Y. Kung及L. J. Lin提出了一种基于机率性决策式的类神经网络方法(probabilistic decision-based neural network, PDBNN),这种方法与使用径向式函数(radial basis function, RBF)方法很像,只是修改了他们的学习法则与机率解译的部分。在他们的方法中,其为了避免在使用类神经网络训练中需要将整个影像进行转换,他们使用影像强度与边界信息来撷取影像中的可能脸部区域之特征向量。这些被撷取出来的特征向量会进入PDBNN网络内进行判别,并由其输出结果来决定最后的分类。1998年R. Féraud及O. Bernier提出一种利用自动组合的(autoassociative)类神经网络系统,其网络架构可分成5个层级,可用以完成非线性PCA的计算。在这种网络架构里面,其中一个层级会被用来侦测正面脸部区域,另一个层级则被用来侦测偏移60度的正面脸部区域。此外,其亦利用一个途径网络(gating network)来加权正面脸部区域以及在自动组合的网络架构中切换脸部侦测器。
直性式贝氏分类器
(nave Bayes classifiers)

相对于E. Osuna等人以全域表象(global appearance)模型化脸部的方法,H. Schneiderman及T. Kanade提出了一种利用局部表象(local appearance)在多分辨率中评估脸部表象的机率及脸部模型位置的贝氏分类器方法。他们之所以采用局部表象而非全域表象,在于他们认为物体的一些局部模式(例如:眼睛周围的强度模式要比脸颊周围的强度模式要更具可鉴别性)比全域表象要更具单一性。而他们使用单纯的贝氏分类器的理由有二,首先是贝氏分类器对次区域提供了更好的条件密度函数评估;其次,在捕捉局部表象与对象位置的联合统计上,其提供了一种后验(posterior)机率功能型态。在每一种分辨率的尺度里,一个脸部影像往往会被分解成4个矩形次区域,之后这些次区域会利用PCA投影到较低维度空间,并量化为一个有限的模式集合。至于每一个投影部分的统计,是将投影的样本编码(encode)成局部表象后才进行评估。如果这些区域的可能性比例大于先验机率(prior probabilities)的比例,则系统便认为有脸部区域存在。

特征不变法

(一)材质(texture)
每个人的皮肤因为后天的保养与工作环境差异,可能有不同的肤质与纹路。利用皮肤的纹路作为脸部侦测或辨识的依据方法者,便称为材质侦测法(texture detection)。这种方法虽然行之有年且非常直觉,但要精确分别脸部与这些类脸区域(face-like)并非一件容易的是。然而关于这方面的研究并非少数,例如在1999年时M. F. Augusteijn及F. L. Skujca提议了一种基于类脸材质的脸部推论方法。在他们提议的方法里面,影像会先被分割成许多小区域(通常是16×16像素)的次影像单位,这些次单位的材质会再利用R. M. Haralick、K. Shanmugam及I. Dinstein所提议的SGLD(Space Gray Level Dependency)计算来区分这些材质的某些统计特性。在Augusteijn及Skujca的方法里,其将脸部特征分成三种型态,分别是:皮肤、头发及其它特征。而对这些材质的分类,其采用串联修正量(cascade correction)的类神经网络方式,用指导式分类法(supervised classification)来加以分类。这些被分类的材质,会再进一步利用Kohonen的自我组织特征地图(self-organizing features map)来加以丛集化(clustering)。对于这些被丛集化为皮肤或头发的区域是否为脸部区域,还需进一步经过投票程序方能确定。不过他们的方法主要缺失,在于只会得到最后的投票结果是哪一种分类获胜,而不是告诉我们影像中是否存有脸部区域或是其位置,这使得在应用上面受到限许多限制。
利用SGLD模型来做为脸部侦测的研究者,除Augusteijn及Skujca等人之外还有Y. Dai及Y. Nakano等人。只不过在他们的脸部材质模型(face-texture model)里面,还参考色彩(color)方面的信息。其利用脸部材质模型设计了一套可以应用在彩色场景中的一套脸部扫瞄策略,其关键概念在于强化影像中有如橘子般的色彩区域,以做为脸部候选区域。其优点在于不需要倚靠其它脸部几何特征做为脸部候选区域的选取标准,因此在执行上具备良好效率。但此优点也成为其缺点,此方法不会对场景中非人脸但具有橘子色彩区域的物体做判别,因此在一些较复杂的彩色场景里,其失败率较高。

(二)肤色(skin color)
人类的肤色(skin color)在许多侦测与辨识上,提供了相当有用的信息。如同皮肤材质一样,同为影像处理中有关生物辨识方面(例如:脸部侦测、手的追踪)的重要方法。虽然肤色随者人种而异,但经由许多年来的研究发现,这些不同人种在色彩上所表现出的主要差异,并不在色度(chrominance)的不同,而在于亮度(luminance)的强弱。关于利用肤色作为生物辨识的应用领域,其主要方法可分成非参数方法(non-parametric methods)与参数方法(parametric methods)这两种。在非参数方法应用里面,其核心技术往往是长条图法(histogram)。目前已有少数一些色彩空间(color spaces)已被发展出来用以表示肤色的像素信息,例如:RGB、正规化RGB、YIQ、CIE XYZ或是CIE LUV色彩空间。而建立肤色模型的方法,目前有有许多种策略可供使用。在这些建立的策略方法里面,最简单的一个方法模型,便是利用YCbCr色彩空间的色度,来定义一个类肤色色调像素值的范围,事实上这种方法在D. Chai及K. N. Ngan(1998)的研究里亦曾被使用过。此方法的使用有三个关键定义,第一个是值,此值用以界定肤色范围,不过因为肤色与Cr有较密切关系,所以在M. H. Yang及D. J. Kriegman的研究里,其将界定肤色的范围函数改成模式,以彰显Cr在肤色表现里所具有得重要地位。另外两个定义值,分别为类肤色像素的舍取临界值,即是与,其中L、H标记分别表示最低临界值与最高临界值。任何类肤色像素只要落入此范围,我们便认定该影像中的区域为肤色区域。因此,影像中的肤色能否并成功辨识,必须看我们对这些类肤色像素的舍取标准高低而定,标准太高不好,太低则无助于侦测。不可讳言的,如果肤色模型可在各种照明条件下正确运作,那肤色模型所能提供给我们的色彩信息,将会有助于我们更有效率去辨识背景中的脸部区域及脸部特征。不幸的是,事实上并没有。目前的各种肤色模型,在各种不同照明条件下并不是那样有效率。换句话说,目前有许多肤色模型一旦遭逢背景或是前景照明条件改变时,其所提供的肤色信息就会失去稳定性。为改变肤色模型的缺点,有学者乃致力于色彩不变性的研究上面。所幸色彩不变性(color constancy)的问题,已经可藉由公式化加以定位完成,并成功用在一些不同照明的应用上面。例如:1998年S. McKenna、Y. Raja以及S. Gong所提出的适应性色彩混合模型(adaptive color mixture model)里面,其使用的理论便是色彩不变性而非肤色模型,他们的系统可用来追踪各种不同光照条件下的脸部区域。而其用以评估物体色彩分布的方法,是基于一种机率推移模型(stochastic model),使系统在观测角度或光照条件变动时,可以适应变动后的条件改变。其实验结果也显示了,该方法可以在不同光照条件下成功追踪到脸部区域。不过既然该系统是使用机率推移概念所设计,因此状态的变更对系统有很重要的地位。如果是属于非状态变更的情况下(例如:单一影像中的脸部侦测),那该系统就无法适用,此为其缺点之一。根据许多研究显示,单凭肤色模型并不足以提供我们侦测或追踪脸部的依据。因此,即使使用肤色模型来做为脸部区域侦测依据,往往还需要再搭配其它辅助方法(例如:外型/几何分析、脸部特征分析、移动信息…等等),以提高脸部候选区域的精确度。关于肤色方面的研究资料有很多,但多数都有光照条件的限制。1994年的时候,J. L. Crowley及J. M. Bedrune曾利用正规化RGB色彩空间,将(r,g)H进行长条图化(histogram)后的结果(即是),来取得那些可能含有特殊RGB肤色的像素。也就是说,如果令表示从长条图化样本中所选择之经验性临界值(empirically threshold)。(r,g)经长条图化后的结果,如果,则该像素就会被归纳为肤色像素。到了1996年,D. Saxe及R. Foulds提出另一种在HSV色彩空间内应用长条图逻辑乘法(intersection)的迭代肤色辨识法。其起始的肤色像素补片(patch)称为“控制种子(control seed)”。此控制种子由使用者自行选择,并用在起始化迭代算法(iterative algorithm),后来这种方法继续被遗传算法(genetic algorithms, GAs)所推广,并采用演化世代决策以及利用环境变异、元素互换(crossover)…等方式寻找最佳解法的出现。为了能侦测肤色区域,其采用的比较方法是1991的时候由M. J. Swain及D. H. Ballard所提议的色彩索引方法(color indexing),这种方法也是一种长条图逻辑乘法的应用,可用来比较后来的影像与目前影像之长条图间的变化。如果评分分数或比较数目高于临界值,则该补片就会被视为是肤色区域像素。此方法有两个比较大的问题,第一个是它需要标准肤色模版来作为比较依据。如果没有所谓的标准肤色模版存在,那要判别背景中的的肤色区域就不是那样容易。因此,一个直觉上的困扰便是“何谓标准肤色模版”?此问题固然无解,不过常见的定义方式乃是在某一色彩空间里,预先定义多组可能是肤色预测值的范围。然后再利用这些影像中的像素空间分布特性,来判别背景中是否可能存在肤色候选区域。利用这种方式,暂时可以解决掉所谓标准肤色的问题(即是利用多组肤色定义取代),此方法R. Kjeldsen及J. Kender(1996)便曾在HSV色彩空间中使用过;第二个问题在于这些被分离出来的像素,其对于所谓的空间特行评估方式为何也未能详尽介绍,是以为憾。另一种使用参数方法的肤色应用,其主要包含:高斯密度函数(Gaussian density functions, GDF)、混合式高斯法(mixture of Gaussians),这些参数方法常被用在建立肤色模型上。在这些高斯法的参数应用上面,这些参数可分成单峰(unimodal)高斯分布参数与多峰(multimodal)高斯分布参数。在单峰高斯分布的参数方法里,其常用Maximum-likelihood(ML)方法来加以评估其参数。不过因为一般人在不同的背景中,其肤色长条图往往不会形成单峰的高斯分布,而是一种多峰高斯分布。因此有人认为混合式高斯法可能会更适合用于背景中的肤色侦测。在混合式高斯法里,其合适参数的评估并非使用ML方法,而使采用EM算法。与前面非参数方法以长条图法为何新技术不同之处,在于参数式的方法其肤色的判别是采混合式高斯法为主。这两种核心技术的成本不一,前者在精确度与运算成本上略比后者稍居上风,且前者的运算概念也比后者前显易懂。因此在许多实作上,多以前者为主要发展基石。
另外一种常被使用的特征不变法便是脸部特征技术,唯好的脸部特征模型建立不易,切通常需要再经过型态运算子做一些影像处理工作,关于这些方法我们在下期再为各位说明。