簡易檢索 / 詳目顯示

研究生: 湯穎奇
Tang, Ying-Chi
論文名稱: 應用K-means分群演算法於選取模式樹節點屬性之研究
指導教授: 翁慈宗
Wong, Tzu-Tsung
學位類別: 碩士
Master
系所名稱: 管理學院 - 資訊管理研究所
Institute of Information Management
論文出版年: 2005
畢業學年度: 93
語文別: 中文
論文頁數: 41
中文關鍵詞: 數值預測模式樹K-means分群法
外文關鍵詞: model tree, K-means clustering, numeric prediction
相關次數: 點閱:97下載:10
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  •   模式樹的樹狀結構與決策樹類似,不同之處在於每個葉部節點是存放著一條線性歸式,以用來預測類別值。在處理數值預測的問題時,模式樹是一種不錯的方法,GUIDE為近年來在效率和精確度上都表現不錯的模式樹演算法,其主要是採用統計裡的卡方檢定來挑選節點屬性,而本研究提出的KCMT,是利用K-means分群法將資料點分群後,依據屬性的區隔能力來挑選節點屬性,並且提出三種不同找尋屬性分割點的方法,為2個標準差法、MSE法、歸類正確率法,分別記為KCMT(2sd)、KCMT(mse) 和KCMT(c)。從本研究的測試結果來看,利用分群資訊來找尋屬性分割點的方式會具有較好的學習結果,至於未修剪前的樹狀結構大小方面,KCMT大多比GUIDE來得小,而修剪後的樹狀結構大小反倒是GUIDE來得小,由預測精確度來看,利用歸類正確率法來找尋屬性分割點的方式在各資料檔中的平均表現是較佳的,而KCMT(c)與GUIDE的表現是優劣參半、不分軒輊,因此整體而言,KCMT(c)的學習成效略優於GUIDE,使得KCMT(c)的表現和GUIDE相比是具有競爭力的。此外,KCMT是採用和M5相同的處理名目型屬性的做法,由大多資料檔的測試結果顯示,當由名目屬性轉換成的二元屬性個數不是很多時,這種處理名目屬性的方式對於KCMT的學習結果並沒有太大的影響。

    none

    摘要 I 目錄 II 表目錄 IV 圖目錄 V 第一章 緒論 1 1.1 研究動機 1 1.2 研究目的 2 1.3 論文架構 3 第二章 文獻探討 4 2.1 線性歸 4 2.1.1 簡單線性歸 4 2.1.2 多元線性歸 5 2.2 樹狀結構之數值預測 6 2.2.1 長成 7 2.2.2 葉部節點模式 8 2.2.3 修剪與平滑化 8 2.3 不同模式樹之架構方法 9 2.3.1 M5 9 2.3.2 RETIS 10 2.3.3 GUIDE 12 2.3.4 SECRET 13 2.4 效能測試方法 13 2.5 分群技術 14 第三章 研究方法 15 3.1 KCMT 15 3.1.1 資料處理 15 3.1.2 選取節點屬性 17 3.1.3 找尋節點屬性分割點 18 3.1.4 修剪 20 3.1.5 逐步歸 21 3.2 效能測試方法 22 3.3 GUIDE 23 第四章 實證研究 26 4.1 實驗參數設定 26 4.2 測試資料 27 4.3 實驗結果 29 4.3.1 樹狀結構大小 29 4.3.2 精確度 31 4.3.3 名目屬性處理方法之驗證 35 4.4 小結 37 第五章 結論與建議 38 參考文獻 40

    陳子立,“結合特徵選取與判定係數以建構模式樹之方法”,碩士論文,國立成功大學工業管理科學研究所,民國92年。
    Alexander, W.P. and Grimshaw, S.D. (1996). Treed regression, Journal of Computational and Graphical Statistics, 5, 156-175.
    Bandyopadhyay, S. and Maulik, U. (2002). An evolutionary technique based on K-Means algorithm for optimal clustering in RN, Information Sciences, 146, 221-237.
    Breiman, L., Friedman, J.H., Olshen, R.A., and Stone, C.J. (1984). Classification and Regression Trees, Belmont, CA:Wadsworth International Group.
    Chaudhuri, P., Huang, M.C., Loh, W.Y., and Rubin, R. (1994). Piecewise-polynomial regression trees, Statistica Sinica, 4, 143-167.
    Dempster, A., Laird, N., and Rubin, D. (1977). Maximum likelihood from incomplete data via the EM algorithm, Journal of the Royal Statistical Society, B 39, 1-38.
    Dobra, A. and Gehrke. J.E., (2002). SECRET: A Scalable Linear Regression Tree Algorithm, Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 481-487.
    Karalic, A. (1992). Employing linear regression in regression tree leaves, Proceeding of the 10th European Conference on Artificial Intelligence, 440-441.
    Li, K.C., Lue, H.H., and Chen, C.H. (2000). Interactive tree-structured regression via principal Hessian directions. Journal of the American Statistical Association, 95, 547-560.
    Loh, W.Y. (2002). Regression trees with unbiased variable selection and interaction detection. Statistica Sinica, 12, 361-386.
    Quinlan, J.R. (1992). Learning with continuous classes, Proceedings of the Australian Joint Conference on Artificial Intelligence, 343-348.
    Quinlan, J.R. (1993). Combining instance-based and model-based learning, Proceedings of the 10th International Conference on Machine Learning, 236-243.
    Selim, S.Z. and Ismail, M.A. (1984). K-means-type algorithms: A generalized convergence theorem and characterization of local optimality, IEEE Transactions on Pattern Analysis and Machine Intelligence, 6(1), 81-87.
    Torgo, L. (1997). Functional models for regression tree leaves, Proceedings of the 14th International Conference on Machine Learning, 385-393.
    Tou, J.T. and Gonzalez, R.C. (1974). Pattern Recognition Principles, Addison-Wesley, Reading, MA.
    Wang, Y., and Witten, I.H. (1997). Inducing model trees for continuous classes, Proceedings of poster papers of the 9th European Conference on Machine Learning.

    下載圖示 校內:2006-07-06公開
    校外:2007-07-06公開
    QR CODE