簡易檢索 / 詳目顯示

研究生: 許景涵
Hsu, Ching-Han
論文名稱: 以基因微陣列資料探討基因選取方法對分類正確率之影響
指導教授: 翁慈宗
Wong, Tzu-Tsung
學位類別: 碩士
Master
系所名稱: 管理學院 - 工業與資訊管理學系
Department of Industrial and Information Management
論文出版年: 2005
畢業學年度: 93
語文別: 中文
論文頁數: 59
中文關鍵詞: 癌症分類基因表現資料基因微陣列基因選取
相關次數: 點閱:61下載:2
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 摘要
      隨著資訊技術的發展,基因表現資料 (gene expression data) 成為研究癌症分類(classification) 的一大關鍵,而近年來最引人注目的即是基因微陣列 (microarray) 這項可同時分析上千個基因的技術的發展,這項技術也使得癌症分類的研究邁入一個新的紀元。由於擁有如此豐富的基因表現資料,因此許多研究學者紛紛提出解決癌症分類的各種方法,其中衍生出處理小樣本高維度資料的二階段分類法,所謂二階段分類法即是先從數千個基因中選取與該癌症相關的若干基因再進行分類,在本論文先針對一些學者所提出的解決方法和相關研究做一概括性的說明,做一系列的評估之後以找出最有效能的分類預測的組合。在以往的相關研究往往只討論分類法的優劣,而沒有對挑出的基因群進行分析,本研究利用兩類基因選取法:一類是集合基因排序法;另一類是個別基因排序法共4種基因選取的方法挑選基因,另外再結合其中屬於個別基因排序法來做基因選取,總共5種基因選取法和K鄰近點分類法做結合來分類,以及降低維度後和邏輯斯區別分析做結合來分類。結果發現在任兩個基因選取方式所挑出的基因組合,其相似度都很低,但是在精確度的表現除了屬於集合基因排序法結合K鄰近點分類所得精確度有較好的表現外,其餘精確度的表現都差不多。另外用基因微陣列資料來進行癌症分類,並不是選取愈多的基因變數就能使二階段分類預測的結果有較高精確度。最後經過本研究所提之組合選取法結合分類法的精確度表現可知,如果只是找出每個個別基因排序法前幾名或是都有出現的基因來做基因挑選的改善其進步空間有限。

    目錄 摘要 I 誌謝 II 目錄 III 表目錄 VII 第一章 緒論 1 1.1 研究動機 1 1.2 研究目的 2 1.3 研究架構與步驟 3 第二章 文獻探討 4 2.1 基因微陣列 4 2.1.1 基因微陣列型態 5 2.1.2 基因微陣列資料的應用 6 2.2 基因選取法則 9 2.2.1 個別基因排序法 9 2.2.2 集合基因排序法 10 2.3 癌症分類法 11 2.3.1 線性區別分析 12 2.3.2 加權基因投票法 12 2.3.3 機器學習分類法 13 2.3.4 類神經網路分類法 14 2.3.5 支向機法 15 2.4 交互認證法則 15 第三章 研究方法 17 3.1 第一階段-基因選取法 17 3.1.1 t統計量 18 3.1.2 基因演算法結合K鄰近點分析 18 3.1.3 BW比率 21 3.1.4 無參數評分演算法 21 3.1.5 組合選取法 23 3.2 第二階段-分類法 23 3.2.1 K鄰近點分析 24 3.2.2 偏最小平方法結合邏輯斯區別分析 24 3.3 評估流程 26 3.3.1 評估標準 27 第四章 實證研究 29 4.1 資料收集與整理 29 4.1.1 資料前置處理 30 4.2 參數設定 31 4.2.1 組合選取法 31 4.2.2 基因演算法結合K鄰近點分析 32 4.2.3 偏最小平方法結合邏輯斯區別分析 33 4.3 基因相似度 34 4.4 二階段分類法的效能表現 37 4.4.1 不同基因選取法結合K鄰近點分類法 38 4.4.2 不同基因選取法結合PLS-LD分類法 44 4.4.3 相同基因選取法結合不同分類法 50 4.5 小結………………………………………………………………………..51 第五章 結論與建議 52 5.1 結論………………………………………………………………………..52 5.2 建議………………………………………………………………………..53 參考文獻 55

    中文

    辜韋智,涂景瑜,徐康民,曾驥孟 (2001),結合材料化學、生物醫學、資訊科學的明日之星:生物晶片,化工,第48卷第3期,17-32。

    陳順宇 (2000),多變量分析,華泰書局 二版。

    陳健尉 (2000),基因微陣列顯色分析法之簡介及其應用: 二十一世紀基因分析的利器,生物醫學報導,第二期。

    鄭凱峰 (2004),小樣本高維度資料中二階段分類法之效能評估-以基因微陣列資料癌症分類為例,國立成功大學工業與資訊管理學系碩士班碩士論文。

    英文

    Albrecht, A., Vinterbo, S. A., and Ohno-Machado, L. (2003). An Epicurean learning approach to gene-expression data classification, Artificial Intelligence in Medicine, 28, 75-87.

    Alon, U., Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D., and Levine. A. J. (1999). Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proceedings of the National Academy Sciences of the United States of America, 96, 6745-6750.

    Alizadeh, A. A., Eisen, M. B., Davis, R. E., Ma, C., Lossos, I. S., Rosenwald, A., Broldrick, J. C., Sabet, H., Tran, T., Yu, X., Powell, J. I., Yang, L., Marti, G. E., Moore, T., Husdson, J. J., Lu,L., Lewis, D. B., Tibshirani, R., Sherlock, G., Chan, W. C., Greiner, T. C., Weisenburger, D. D., Armitage, J. O., Botstein, D., Brown, P. O., and Staudt, L. M. (2000). Distinct types of diffuse large B-cell lymphoma identified by gene expression profiling, Nature, 403, 503-511.

    Antoniadis, A., Lambert-Lacroix, S., and Leblanc, F. (2003). Effective dimension reduction methods for tumor classification using gene expression data, Bioinformatics, 19, 563-570.

    Ben-Dor, A., Bruhn, L., Friedman, N., Nachman, I., Schummer, M., and Yakhini, Z. (2000). Tissue classification with gene expression profiles, Journal of Computational Biology, 7, 559-583.

    Breiman, L. (1996). Bagging Predictors, Machine Learning, 24, 123-140.

    DeRisi, J.L., Iyer, V.R., and Brown, P.O. (1997). Exploring the metabolic and genetic control of gene expression on a genomic scale, Science, 278, 680-686.

    Desper, R., Khan, J., and , A. A. (2004). Tumor classification using phylogenetic methods on expression data, Journal of Theoretical Biology, 228, 477-496.

    Dudoit, S., Fridlyand, J., and Speed, T. (2002). Comparison of discrimination methods for the classification of tumor using gene expression data, Journal of the American Statistical Association, 97, 77-87.

    Dudoit, S., Laan, M., Keles, S., and Cornec, M. (2003). Unified cross-validation methodology for estimator selection and application to genomic, Bulletin of the International Statistical Institute, 54th Session Proceedings, Vol. LX, Book 2, 412-415.

    Friedman, N., Linial, M., Nachman, I., and Pe'er, D. (2000). Using Bayesian networks to analyze expression data, Journal of Computational Biology, 7, 601-620.

    Furey, T., Cristianini, N., Duffy, N., Bednarski, D., Schummer, M., and Haussler, D. (2000). Support vector machine classification and validation of cancer tissue samples using microarray expression data, Bioinformatics, 16, 906-914.

    Golub, T. R., Slonim, D. K., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J. P., Coller, H., Loh, M. L., Downing, J. R., Caligiuri, M. A., Bloomfield, C. D., and Lander, E. S. (1999). Molecular classification of cancer: class discovery and class prediction by gene expression monitoring, Science, 286, 531-537.

    Guyon, I., Weston, J., and Barnhill, M. D. (2000). Gene selection for cancer classification using support vector machines, Machine Learning, 46, 389-422.

    Jörnsten, R. and Yu, B. (2003). Simultaneous gene clustering and subset selection for sample classification via MDL, Bioinformatics, 19, 1100-1109.

    Khan, J., Wei, J. S., Ringnér, M., Saal, L. H., Ladanyi, M., Westermann, Frank., Berthold, F., Schwab, M., Antonescu, C. R., Peterson, C., and Meltzer, P. S. (2001). Classification and diagnostic prediction of cancers using gene expression profiling and artificial neural networks, Nature Medicine, 7, 673-679.

    Koller, D. and Sahami, M. (1996). Towards optimal feature selection, Proceedings of the Thirteenth International Conference on Machine Learning, Bari, Italy, 284-292

    Lee, K. E., Sha, N., Dougherty, E. R., Vannucci, M., and Mallick, B. K. (2003). Gene selection: a Bayesian variable selection approach, Bioinfromatics, 19, 90-97.

    Li, L., Weinberg, R. C., Darden, T. A., and Pedersen, L. G.. (2001). Gene selection for sample classification based on gene expression data: study of sensitivity to choice of parameters of the GA-KNN method, Bioinformatics, 17, 1131-1142.

    Liu, H., Li, J., and Wong, J. (2002). A comparative study on feature selection and classification methods using gene expression profiles and proteomic patterns, Genome Informatics, 13, 51-60.

    Lu, Y. and Han, J. (2003). Cancer classification using gene expression data, Information Systems, 28, 243-268.

    Nguyen, D. V. and Rocke, D. M. (2002). Tumor classification by partial least squares using microarray gene expression data, Bioinformatics, 18, 39-50.

    Park, P., Pagano, M., and Bonetti, M. (2001). A nonparametric scoring algorithm for identifying informative genes from microarray data, Proceedings of the Pacific Symposium on Biocomputing, 6, 52-63.

    Simek, K., Fujarewicz, K., Swierniak, A., Kimmel, M., Jarzab, B., Wiench, M., and Rzeszowska, J. (2004). Using SVD and SVM methods for selection, classification, clustering and modeling of DNA microarray data, Engineering Application of Artificial Intelligence, 17, 417-427 .

    Zhang, H., Yu, C., Singer, B., and Xiong, M. (2001). Recursive partitioning for tumor classification with gene expression microarray data, Proceedings of the National Academy Sciences of the United States of America, 98, 6730-6735.

    下載圖示 校內:2006-07-15公開
    校外:2007-07-15公開
    QR CODE