作者姓名:沈紅斌?
  論文題目:數(shù)據(jù)挖掘的建模及在生物信息學中的應(yīng)用研究
  作者簡介:沈紅斌,男,1979年8月出生,2004年4月師從于上海交通大學楊杰教授,于2007年3月獲博士學位。

  中文摘要
  隨著科學技術(shù)的飛速發(fā)展,經(jīng)濟和社會都取得了極大的進步,與此同時,在各個領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如何從這些數(shù)據(jù)中發(fā)現(xiàn)有價值的知識及規(guī)律,成為目前理論與實踐研究的熱點與難點。與此同時,生命科學技術(shù)的快速發(fā)展也產(chǎn)生了大量的生物數(shù)據(jù),單純地利用傳統(tǒng)的生物實驗方法將很難快速且全面的處理如此多生物數(shù)據(jù),從而必然制約了生命科學及制藥工程的快速發(fā)展。在這種情況下,生物信息學應(yīng)運而生。生物信息學是一門生物學與信息科學交叉而形成的年輕學科,旨在運用信息學、物理學、化學、數(shù)學、計算機科學、系統(tǒng)科學的理論和方法來研究生物系統(tǒng)和生物過程的信息量和信息流,在已有數(shù)據(jù)的基礎(chǔ)之上發(fā)現(xiàn)相應(yīng)的規(guī)律和知識并進而用來進一步指導(dǎo)與解釋生物實驗與生命現(xiàn)象,加速對生命本質(zhì)特征的認識。本論文在數(shù)據(jù)挖掘及生物信息學理論與方法上進行了深入的研究與探索。
  聚類分析是數(shù)據(jù)挖掘研究中的重要內(nèi)容,成為各學科研究中的重要工具。但在現(xiàn)實生活中,常常遇到高維數(shù)據(jù)集的處理且在大多數(shù)情況下,這些數(shù)據(jù)集對于各個聚類存在屬性不平衡的現(xiàn)象。根據(jù)這一點,本文創(chuàng)新性提出了在核特征空間中的屬性加權(quán)核聚類算法,實驗表明新聚類算法能很好地反映各屬性對于各個聚類的重要性,因而取得了比傳統(tǒng)聚類算法更好的結(jié)果。傳統(tǒng)聚類算法的應(yīng)用對象往往局限于單一獨立的數(shù)據(jù)集,但在很多情況下一個數(shù)據(jù)集要和其他數(shù)據(jù)集相互發(fā)生關(guān)聯(lián)?;谛畔⒗碚?,本文首先提出了一合作聚類算法,反映了數(shù)據(jù)集間的相互作用關(guān)系,結(jié)果表明聚類結(jié)果將受到其他數(shù)據(jù)集的影響。我們同時也從理論上證明了這兩個算法的收斂性。
  蛋白折疊是比蛋白的三維結(jié)構(gòu)更深層次的知識信息,因而是更加困難的研究課題,同時,從蛋白序列預(yù)測蛋白折疊類型能夠進一步為預(yù)測該蛋白的三維結(jié)構(gòu)提供極有價值的信息。本文從生物系統(tǒng)的復(fù)雜性角度出發(fā),創(chuàng)新性地提出了基于集成分類器框架的蛋白折疊預(yù)測系統(tǒng),從多個生物特征角度對序列信息源及特征進行融合決策預(yù)測,結(jié)果證明所得到的集成預(yù)測系統(tǒng)是非常有效的,把蛋白折疊的預(yù)測精度提高了6-21%。
  蛋白的三維結(jié)構(gòu)是標識所有蛋白折疊類型的重要屬性。即使蛋白之間所包含的序列信息或者其功能特性有所不同,其所包含的折疊類型或者結(jié)構(gòu)類型也可能是相似的。鑒于此,Levitt和Chothia把蛋白分成以下的4種結(jié)構(gòu)類型:(1)?all-?,(2)?all-?,(3)?和?(4)?。從蛋白序列出發(fā),預(yù)測蛋白的結(jié)構(gòu)類型是蛋白質(zhì)科學中的重要研究課題。本文首次有機地將有監(jiān)督聚類算法與模糊系統(tǒng)學習算法結(jié)合在一起進行蛋白三級結(jié)構(gòu)預(yù)測,提高了蛋白結(jié)構(gòu)預(yù)測的精度,該工作第一次將模糊系統(tǒng)學習方法引入到蛋白結(jié)構(gòu)預(yù)測中,為生物信息學進一步的研究開辟了新的思路。
  膜蛋白是一種非常重要的蛋白,占人體蛋白總數(shù)的約1/3,但目前已經(jīng)知道的膜蛋白結(jié)構(gòu)只占1%左右。膜蛋白的主要功能之一是離子通道,我們的認知、感覺、情緒等的產(chǎn)生都是由于這些通道在不停地開關(guān),所以,膜蛋白對人體的重要性是不言而喻的,如phospholamban離子通道蛋白對心臟功能有著重要作用。絕大多數(shù)疾病都是由于某一特定的膜蛋白不足引起的,現(xiàn)在市場上銷售的80%的藥物都集中在膜蛋白上。因此,研究膜蛋白的序列特征以及其三維結(jié)構(gòu)對于了解膜蛋白的功能起著重要的作用,已經(jīng)成為結(jié)構(gòu)生物學中的研究熱點,但同時由于膜蛋白不溶于水的特性也使得生物實驗方法求解膜蛋白結(jié)構(gòu)非常困難,這就為我們利用計算方法從序列預(yù)測膜蛋白拓撲結(jié)構(gòu)提出了挑戰(zhàn)及嶄新的課題。本文創(chuàng)新性地提出了基于集成分類器模型及蛋白序列進化信息的新穎PsePSSM離散化模型,提出了融合序列功能域特征及PsePSSM特征的蛋白屬性預(yù)測框架,并成功應(yīng)用于膜蛋白拓撲結(jié)構(gòu)預(yù)測及酶蛋白功能家族預(yù)測,新預(yù)測模型在8類膜蛋白的拓撲結(jié)構(gòu)上準確率達到了85%以上,比傳統(tǒng)方法的預(yù)測精度提高了約30%。
  蛋白在細胞中的位置信息與其功能特性是密切相關(guān)的,甚至即使我們知道了一個蛋白的功能特性,了解該蛋白在細胞中行使功能的位置也是非常重要的。例如,細胞核包含了細胞的遺傳因子DNA,控制著細胞的整個活動過程等。但隨著人類基因項目的成功實施,人類所發(fā)現(xiàn)的新蛋白數(shù)目呈現(xiàn)指數(shù)增長的趨勢,根據(jù)國際蛋白數(shù)據(jù)庫UniProtKB/Swiss-Prot的統(tǒng)計,2006年6月份的蛋白數(shù)目達到了223,100,比1986年增加了56倍多。面對如此快的蛋白合成速度,單純依靠生物實驗方法測定蛋白的亞細胞位置是幾乎不可能完成的任務(wù),迫切希望能通過生物信息學的研究在已經(jīng)掌握的相關(guān)知識的基礎(chǔ)上提出預(yù)測分析新蛋白的亞細胞位置,為加快生命科學研究及制藥工程服務(wù)。本文首次在國際上提出并探討了a)?蛋白在細胞中多個位置出現(xiàn)的預(yù)測模型;b)?蛋白在細胞核中出現(xiàn)的位置的預(yù)測模型,即?“亞亞細胞位置預(yù)測模型”,獲得國際學術(shù)界的認可;c)?本文首次將亞細胞定位的預(yù)測研究推廣到覆蓋22個亞細胞位置,極大地提高了預(yù)測模型的實用價值,并提出了融合蛋白序列高層基因本體特征及序列自身氨基酸特征的蛋白亞細胞位置預(yù)測方法,提出了面向不同物種的亞細胞定位的預(yù)測新思路;結(jié)果表明新算法方法在嚴格的數(shù)據(jù)集上獲得了比傳統(tǒng)算法方法高出35%以上的預(yù)測精度,所開發(fā)的工具被廣泛應(yīng)用于生物實驗中。
  為了推廣理論研究成果的應(yīng)用,我們在科學研究中還建立了15個在線的生物信息學網(wǎng)站平臺:,全世界的相關(guān)領(lǐng)域生物學家只要通過互聯(lián)網(wǎng)提交生物數(shù)據(jù),就能得到網(wǎng)站即時運算返回的結(jié)果。經(jīng)不完全統(tǒng)計,網(wǎng)站已被使用了1,100,000余次,極大地推動了生物信息學理論研究的應(yīng)用成果化。國際上許多生物學家在發(fā)表的學術(shù)論文中應(yīng)用了經(jīng)我們所開發(fā)的生物信息學應(yīng)用平臺分析運算得到的相關(guān)數(shù)據(jù)來驗證他們的實驗結(jié)果,獲得了良好的評價。

  關(guān)鍵詞:數(shù)據(jù)挖掘,聚類分析,生物信息學,機器學習,信息理論,證據(jù)理論,集成分類器,蛋白結(jié)構(gòu)預(yù)測,蛋白亞細胞位置預(yù)測,膜蛋白識別,細胞網(wǎng)絡(luò),蛋白進化理論