知识探勘的利器-丛集算法6

本文作者:admin       点击: 2008-07-11 00:00
前言:
丛集算法之常见应用

一、旅行业务员的问题(traveling salesman problem,TSP)
TSP问题是非常著名的NP-complete问题,也几乎是每个算法课程都会谈论到的议题。如果给定一个完整的无向图形(undirected graph)-G,并以V表示顶点集合,以E表示两顶点间的边界,则此无向图形可用G=(V, E)表示。现在假设每个边界均有一个非负数的整数成本,在大多数的TSP形式里,其相当于要在G中找到一个使旅程之起点与终点均在同一顶点,并且对图形中所有顶点均要拜访过一次的一种汉弥顿环(Hamiltonian cycle)旅行路径。在许多情况里我们要找的不只是汉弥顿环,而且该环要是最短路径。在此TSP的问题与大规模集成电路(very large-scale integrated circuit,VLSI)设计之间具有某些关联性,其亦是将周边系统分割成数个较小而简易的线路以方便设计,其对象的分割设计是以组件之间的最小连结数目为主。2003年的时候,S. Mulder及D. Wunsch曾用ART网络搭配各个击破(divide-and-conquer)之丛集技术,将此问题放大到百万城市的规模。各个击破的丛集技术可以将大问题分层切割成任意小的丛集规模,至于要切到多小,则由问题所需要的精确度与运算速度来决定。除此之外,利用问题的可切割性,其未来亦可能适用于平行系统来加以最佳化处理。

二、在数字影像处理方面的应用

依据A. K. Jain、N. Murty及P. J. Flynn的研究报告,可知丛集技术已经广泛被用在影像处理的许多方面。近几年来,丛集技术对影像处理的重要性日以遽增,丛集式的影像处理技术也在这几年同样成为一项重要的研究领域。其在此方面的应用多利用影像中的对象特征,这些特征可以利用特征空间转换的方式,将其转换到具有某些意义的特征空间里面,并施以丛集技术来找寻这些特征之间的异同点,以取的影像的全域特征。在特征空间里,我们往往忽略其空间信息而利用某种特定距离测量,来将其特征以向量的形式表示,最后将他们划分成精简的特定群组,但又不失区隔的最后丛集。当丛集过程完成后,数据样本会对应到影像平面,以产生最后结果区域。在一个理想的情况下,一个预估产生的丛集会对应到影像中有意义的区域。不过在实务上,在一个多分辨率的彩色影像分节方法里面,它往往结合了区域法(region-based)与丛集式(clustering-based)分节法。为了了解其中的关系,S. Makrogiannis及G. Economou等人利用特征转换运作(feature transformation operation),来测量影像中主要之丛集与这些区域之间的的关系。并且在他们的方法里面,他们使用图形理论式的算法来合成分割区域以形成最后的分节结果。

对一个自然影像而言,数据丛集问题是一个相当复杂的问题。而此方面的丛集算法,在Jain及Murty等人的研究里面亦做了非常多的介绍。例如:常见者有K-means算法或是Fuzzy C-means算法。除了这些方法外,另外像是S. Chiu、E. Parzen及S. . Roberts等人提到的非参数丛集法(nonparametric clustering methods)也是近几年来非常受欢迎的一种方法。这些方法都尝试自特征空间中的高机率密度区域(high probability density areas)之观察中,找出影像的重要特征并藉此定位丛集之中心点。在此其密度的评估使用的是非参数技术,且这些方法非常适用于非指导性丛集式分节法。

影像的分节(image segmentation)与影像的注册(image registration)是许多数字影像处理应用上的一个重要技术,尤其是在医学影像领域。在此我们着重在影像的分节技术,而对影像注册技术于此只能略过。影像分节技术往往是影像辨识以及其它影像处理的重要前置工作,而一个彩色影像分节的基本概念,主要是以直觉式的方式,依据影像本身所具有的感官属性(例如:光线、色彩、材质、形状、边界信息…等等)来作为分节基础。对影像对象而言,所谓的影像特征所指的往往是影像色彩或其材质等部分。

换句话说,一个输入的影像在进行分节时,通常可以被区分为具有实体意义区域与类似同质区域(quasi-homogenous regions),利用这些同性质的区域分类尝试去找出其隐藏的实体意义。在空间式(spatial-based)的方法里面,分节算法是被用在影像平面(image plan),并且其也会保留影像区间的连接信息。当一个算法的分节是基于区域个体时,我们就称其为“区域式(region-based)”的分节法。这种技术在计算机视觉上的应用有逐年增加趋势,例如:像是L. Vincent及S. Makrogiannis等人提出的梯度算法(Watershed算法)的概念,其便可视为是一种区域式分节法的一种延伸。Makrogiannis与G. Economon等人(2005)另提出了一种混合区域式图形分节法以及多分辨率模糊理论丛集法的一种影像分节法,在其提议里面,其全域影像特征的有效分析乃由丛集算法负责,至于影像中的重要拓朴几何信息,则由区域式图形法中的整合算法为之。在Makrogiannis等人提议架构图里面,他们使用Fuzzy c-means算法为内定丛集算法,其架构图如图7。

不过鱼与熊掌不可兼得,丛集式的影像分节法亦有其严重缺点。影像中非连接区域的像素,如果其在特征空间中的值具有重迭性,那它仍可以被归为同群。此结果将使噪声区与具有不完整的区域边界,产生难以辨识的混淆。

三、信息生物学之基因层面的应用

基因丛集化的结果可以给我们某些程度上的暗示,也就是说,在相同丛集群组中的基因通常会具有相似的功能,或者共享相同的转录(transcription)调节机制。对于将相似功能的基因群组化之丛集分析,在目前应用上已取得相当程度的成功,所以此项技术也成为一种非常受欢迎的研究技术。例如在1998年时,M. Eisen及P. Spellman等人便曾利用皮尔森修正系数(Pearson correction coefficient)来测量两个基因之间的相似度,并提供了一个丛集结果可视化的信息。在Eisen等人的研究里面,可以得知具功能相近的基因通常位于相同的丛集群组内,并且其往往也具有相似的表现模式(expression patterns)。在1999年的时候,Ralf-Herwing等人针对2029个人类的cDNA clones发展了一套变种的K-means算法,此外,P. Tamayo等人则利用SOFM来丛集化基因的表现数据。从这些研究资料里面可之,在阻截不同型态的基因表现数据上,图形理论式的算法(例如:CAST或CLICK法)展现了惊人的发展潜力,不过因为许多基因的表现功能通常不只一种,这些不同功能间的功能性探索,亦是一个很有潜力的研究领域。例如:D. Dembele及P. Kastner(2003年)便曾利用Fuzzy C-means方法,探索这些同基因内其不同功能间的关联性。

目前关于丛集算法在生物信息学上的应用发展可分成两个主要部分,一个是应用在“DNA微数组(DNA Microarrays)”影像技术的分析上,另一个则是从“基因或蛋白质序列”来分析其与某些疾病之间的关联性。DNA微数组技术提供了量化大量基因同步表现的方法,此方法的基础建立在可再生的精确鉴别以及量化其表现的强度(spot intensities)。在DNA微数组技术的分析里面,为使分析判断得以自动化,故其于撷取表现信号之前,往往需要应用影像分节技术来适当标记生物芯片(BioChip)基因表现斑点的所在并撷取其强度。基因表现的同步化,可以缩短检测与研究的所需时间。自从2001年人类基因解读计划(HGP)完成后,其替未来的基因研究奠定了一个重要的基础。然而面对此庞大数据库的建立,其便利性却未能被大众所立即享有。虽然基因定序项目为医学治疗与药厂的药物开发提供了庞大的应用潜力,但是谁能将其潜力真的应用于实际,取决于谁能解读这些庞大基因数据的背后意义。

要了解这些资料的背后意义,通常意味着了解其与目前生理机能或疾病表象之间的关联性。为达成资料的复杂性与关联性分析,许多新技术纷纷被提出讨论,其中尤其是以丛集运算理论更受重视,主要因素在于其不但可用于资料关联性的分析上,另外它于DNA微数组技术的分析潜力,目前已获世界各国的重视。在研究基因的表现上面,基因在生理状态或生物状态上面所扮演的角色及功能,是人类所一直想了解的谜底,前者如基因表现与癌症之间的关系,后者如基因在整个演化过程中所扮演的角色,此仍存有许多至今未被人类所了解之秘密。基因所扮演的这些小涩与功能,在传统方法上所需要的时间往往是漫长且所费不眦的。面对每日大量的数据增加速度,许多传统方法已有江郎才尽之穷。要解决这些问题的关键点,往往需求助于电子计算器科技的应用以加速探索的脚步。

(一)DNA微数组系统
DNA微数组影像可以分成单色系统(single color system)与双色系统(two-color system),前者呈色方式主要有用放射性物质或是色度探针(colormetric probes)方式;后者则以Cy3/Cy5染剂标记作为呈色方式。对于测量基因的表现而言,斑点的侦测与数组的正规化是一项很重要的关键步骤。如果在此前阶段有错误发生,就会导致后续的分析失其准头。而在DNA微数组影像的分析技术上,双色系统的影像分析比单色系统(例如:单色放射性探针(radioactive probes)系统)要更为复杂一点,但因为双色系统具有一些单色系统所没有的优点,因此这种方式至今仍为多数厂商所采用。在DNA微数组的应用上,这些生物芯片上的斑点(spots)强度会被对映到一维向量里面,并藉由K-means丛集技术来将其进行二元分割。在进行影像处理时,每个斑点都会被区分为前景与背景,前景就是我们所要的强度,背景则属生物芯片本身的基质颜色或杂质部分。为了解丛集技术在生物信息领域的应用,兹将DNA微数组的影像产生与分节技术略微说明如下:

1. 微数组之产生
在双色系统的实验互补脱氧核醣核酸(complementary DNA,cDNA)或是寡核甘酸(oligonucleotides)主要是以数组(array)排列的方式被点在基质(substrate)上面,其上之每个点(spot)往往表示不同的基因。在这种系统里面,其控制组RNA与实验组RNA均在同一基质上,其分别以绿色(Cy3)以及红色(Cy5)这两种染剂予以标定。这些标记对象并非绝对的,亦可依据每家厂商使用的习惯而可能予以对调。而打点的密度往往决定了单一基质上可同时进行的基因表现数目,打点密度越高往往表示其基因平行表现机能越优异,但也表示厂商使用的打点机器越精密。此外,一些国外生化公司为巩固其在此领域之龙头地位,通常将打点数目申请为专利保护的标的之一。使其它有做相似业务之公司,具有打点数目上的限制,而使整体成本高居不下以削弱其竞争力。在各种条件备妥之后,其便可进行杂交之过程,在此过程里面,许多实验上的不确定因子多会在此阶段发生,其结果往往会影像后续的基因信号分析,例如:产生的斑点形状呈现不规则状。因此在分析阶段里,为克服斑点形状的问题,许多分析技术均会加入先验知识来辅助系统判断其为基因表现信号或仅是其它噪声。因此在DNA微数组技术里面,基因信号的读取依靠斑点的侦测技术。在斑点的侦测过程里面,许多在杂交过程中所发生的不确定因素,在程度上多少均会影响斑点的信号分析。因此为了降低分析干扰,一些技术除使用先验知识外,还会再辅以统计判断。

2. 微数组影像分节技术
基因的表现对细胞内的基因调节机制而言颇为重要,而其表现的方法多经DNA将遗传信息转录成核醣核酸(Ribonucleic Acid,RNA)之后再由RNA转译(translation)成蛋白质(proteins)为之,此便是所谓的“中心法则(central dogma)”。所以,经由解释同一丛集内之共同表现基因(co-expression genes),有助于我们找到其对应的DNA序列(DNA sequences),并使我们可以辨识潜在的短序列模块,并进一步研究其转录因子的互动及造成基因表现不同活性的原因。Spellman在1998年时曾依据酵母菌(Yeast)细胞循环内的表现方式,丛集化了800个基因,并分析了其中8种主要的基因丛集,进而解开了其共同表现与共同调节之间的关联性。另外,S. Tavazoie等人则利用了K-means算法,将3000个基因分成30个丛集,这些丛集在每个基因上游处,均有600个碱基(base pairs)用以搜寻可能的结构基序(motif)。在他们的实验里,他们从12个丛集中找到18个结构基序,这些基序依据先前文献结果可鉴别的部分有7种,换句话说有11个基序乃属新的发现,这些研究成果颇令人振奋,更进一步的研究可参考2002年Y. Morean等人的相关研究。此外丛集技术在生药上亦广被使用,实验资料经由丛集技术的组织后,可以帮助研究人员在不同的疾病中鉴定样品、发明新药、评估其效能、预测癌症细胞的变异型态或是找寻可能的新疗法…等等。
鉴往知来,在近几年的研究里,一些不需要先验知识来作为自动DNA微数组分析技术的方法遂成为主要的发展方向。在这些不需要先验知识的技术里,又以丛集技术在此所扮演的角色最受他人重视(例如:R. Nagarajan及C. A. Peterson(2002)的相关研究)。有关于微数组的影像分节技术,可以参考C. S. Brown、P. C. Goodwin、P. K. Sorger、M. Eisen、X. Wang以及Y. Chen等人的研究报告,这些文章均对此技术提供了非常好的参考价值。例如Y. Chen、E. R. Dougherty及M. L. Bittner等人便提议了一种非参数的分节方法,其利用一些预先定义的目标屏蔽(target mask)来分别所要寻找的目标区域,其便是有名的“Mann-Whitney”方法。在这种方法里面,其假设样本之间具有统计上的独立性,并且使用者所定义的目标区域对目标强度的辨别有重要的影响。这些微数组丛集影像分析方法,使用的技术原理与一般影像丛集分节技术相似,其往往需要利用两个步骤来完成侦测目标斑点。第一、要先定位斑点位置,其通常采用网格状坐标定位法为之,并藉以侦测侦测斑点的适当边界。有了斑点的定位之后,其次就是进行前景与背景的影像分节,在此常用的方法多是使用K-means的丛集法为之。一个由Nagarajan及Peterson所提议的DNA微数组影像分节流程如图8。

不过在应用新的技术时我们要注意其使用限制,丛集技术也不例外。其在应用于基因的表现上仍存有多个未解决问题,而该问题的导因主要是因为基因表现数据的某些特征所致,例如:高维度的特征空间、高冗余性(high redundancy)、稀疏性(sparsity)以及固有噪声问题…等等。因此要适用于此领域,除了算法的问题之外,还要考虑基因特征的选择。这些特性可以从历年来此方面的研究文献上看出,例如为了研究肿瘤型态样本,其数目可能只有数十种而已,但研究人院却可能必须要筛检数千人的基因表现。此问题在癌症的研究上更显严重,使得丛集技术必须要能在大量不相干的数据中,去找寻可能潜在的模块。

(二)生物信息学-DNA或蛋白质序列丛集
“相似度”在遗传的研究里面具有重要的意义,因为它们很可能表示了具有相同或至少相似的生理机能。因此当研究者得到一个新的序列片段时,其首要工作便是进入相关的数据库进行序列比对(例如:NCBI的GenBank基因数据库),以找出是否有相似的片段被纪录在数据库里面。经由相似度的搜寻,可以使研究者对此为之片段所可能具备的生物机能有些概念。一般而言,越相似的片段往往代表着越近似的功能。除了利用现有数据库比对方法之外,另一项重要技术便是使用丛集技术,以有效搜寻这些DNA或蛋白质序列之间的相关性。截至目前为止,丛集法在DNA或蛋白质序列用上主要可分成以下几个领域:

1.未知基因或蛋白质功能鉴别。
2.对大型DNA或蛋白质数据库的结构鉴别。
3.表现序列标记(expression sequence tag,EST)丛集技术。
4.功能域(domain)的鉴别。
5.降低大型DNA或蛋白质数据库的数据冗余性。
传统的动态规划算法,对全域或局部序列之配对,在运算复杂度上都太过庞大,因此该方法在应付DNA或是蛋白质序列上几乎无用武之地。所以在实作上几乎都以启发式的实作方法来进行序列比对或是逼近测量,在此类算法中较著名者包含了BLAST及FASTA算法,其中BLAST搜寻法作者-S. Altschul亦在美国生物技术信息中心(National Center for Biotechnology Information,NCBI)服务,为此领域贡献不少心力。因为此方面的算法因往往需要处理大量的基因序列或蛋白质序列等等生物信息,因此其开发的基本概念,便是先要找寻有高度吻合的潜在区域,然后将进一步的搜寻仅集中在这些区域,以降低所可能发生的高昂运算成本之问题,并加速处理速度。为了使不同大型物种间之基因序列比对更有效率,R. Durbin在1998年提出了一种七段式的隐藏马可夫链模型法。这些方法对于物种间的基因组序列比对具有深远的影响,更精辟之论述可参考2001年W. Miller的相关文章。

哲人日已远,典范在夙昔

如果上天有意将数据的多样性打乱,以阻止人类窥探其秘密,那我们又要如何解开上天所隐藏的真理?自从民智开化以来,人类终日面对大量数据却始终无法了解其背后意义。直至计算器的出现,始让真理的探索出现一丝曙光。但要解开这些数据背后的秘密,我们还需要更多有效的方法才行,只有正确的方法才是解决问题的不二法门。对丛集算法的应用亦是如此,丛集算法固然在许多领域已获重要成功,但其仍存有一些问题尚待解决,这些问题包含:新技术的产生往往具备更复杂的处理核心、没有一种丛集法可放诸四海皆准以及丛集法的影响因子控制困难…等等。例如:一个对象特征的选择便可能具有多重难度,比如双手对一位钢琴家而言是一项重要特征,但对脸部辨识系统而言,其又可能非属重要特征。在多维度特征空间里面,一个特征探索的基本步骤便是模型化其数据分布情形。在传统的方法里面大多属于多变量统计技巧,其乃基于假设每个特征的分布都属单一模态(unimodal)之下,将特征空间中的特征予以分开。在一些进阶方法里面,分布模型往往还会搭配一些其它概念一起使用。然而在正常情况下,其特征空间的分布往往不总是单一模态形式(有可能是混合或是重迭),因此对这些混合分布的特征空间要以精细且具程序性结构的步骤来予以定量恐非易事。阶层式分析法在分解混合分布的情况提供了某些便利,它是一种stepwise的决策过程(decision process),可撷取所定义之模式域(domain model)中所支持之类树状(tree-like)结构。在这种方法里面,特征探索的指示可以根据全部的结构以及对应的算法来建立起来,最重要的是,这些方法在每一个步骤中都可独立设计、使用。当阶层式架构被建立之后,进一步之决策,则依据传统的多变量统计方法决定之,最后所有特征空间中的分布结构都可进一步被加以丛集化,所以这种阶层式分析方法在地理信息分析上面是一种广受欢迎的工具(尤其是对遥感探测的影像分类上)。不管是使用哪种方法,目前普遍的丛集运作原理大多建立在特征的选择与转换上面。然而在这些特征的选择与转换之间,是否存有类似海森堡测不准原理的适用,以及对特征的取舍所导致原始信息失真问题,甚至是结果的验证影响…等等,都是一个好的丛集算法在发展设计时所必须考虑的。

从研究的过程里,在在显示了人不屈服于命运的心态,无法拘束着我们那颗探索真理的心。2001年2月,MIT的一位现代数字通信及信息论之父-赛农(Claude E. Shannon)辞世曾深深震撼笔者,深叹信息界又损一巨星矣。对于前辈的努力,如今每读其遗作便觉倍感珍贵。所谓哲人日已远,但典范在夙昔。知识探索的最后关键还是在人,只有在更大的格局下,我们才可能更看清楚事情面貌。我们所该作的不只是珍惜这些发现,并应努力为后代立下可敬的典范圭臬。