簡易檢索 / 詳目顯示

研究生: 林宏哲
Lin, Hung-Che
論文名稱: 應用有趣度挖掘部分高價值關聯法則之演算法
指導教授: 翁慈宗
none
學位類別: 碩士
Master
系所名稱: 管理學院 - 資訊管理研究所
Institute of Information Management
論文出版年: 2005
畢業學年度: 93
語文別: 中文
論文頁數: 45
中文關鍵詞: 關聯法則大型資料庫有趣度資料探勘
相關次數: 點閱:77下載:4
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  •   隨著科技的進步,使得儲存在資料庫內的資料量大幅增加,於是如何從這些大量的資料中去找尋我們所要的資訊及知識,便成為我們所需探討的課題。然而,資料探勘 (data mining) 技術可以協助我們做到從這些資料中去挖掘出所需的資訊及知識,其中關聯法則 (association rule) 為最常使用的工具之一。但是,傳統的關聯法則演算法皆是著重在找出所有資料項目間存在的法則,這不僅耗費整個法則產出的時間,而且所產出的法則數量會相當龐大,使用者較難從其中去找尋到符合自己需求的法則。因此,本研究針對此缺失來做改進的動作,以有趣度 (interest) 這個判斷資料項目間是否為偶然發生的衡量指標作為基準,找出資料項目間的相關程度,以求得使用者所需求的法則,並會與目前唯一一個亦是運用有趣度當成衡量指標來挖掘關聯法則的 KORD (k-Optimal-Rule-Discovery) 演算法做比較,以達成率來表示本研究所提的IBR (Interest-Based-Rule) 演算法可達到多好的效果,而達成率的計算方式是以 IBR 演算法所得的法則有趣度平均值除以 KORD 演算法所得的法則有趣度平均值,此值最高為1。實證結果顯示,在考慮完整的修剪空間,以及 IBR 演算法本身的限制條件下,IBR 演算法會有遺失掉一些有趣度較高之關聯法則的風險,但在演算法的搜尋空間上可大幅減少,且達成率亦有不錯的表現,大部分的實證資料檔達成率皆在0.9以上,而最差的情況則只有0.53的達成率。

    none

    摘要 I 誌謝 II 目錄 III 表目錄 V 圖目錄 VI 第一章 緒論 1  1.1 研究背景與動機 1  1.2 研究目的 2  1.3 研究架構與步驟 3 第二章 文獻探討 5  2.1 針對大量資料擷取關聯法則 5   2.1.1 推論演算法 6   2.1.2 分割演算法 7   2.1.3 直接雜湊並刪除演算法 7   2.1.4 抽樣演算法 8   2.1.5 動態項目集計數演算法 9  2.2 多層次關聯法則 10  2.3 正負向關聯法則 11  2.4 有趣關聯法則 12  2.5 KORD 演算法  14  2.6 關聯法則應用 14 第三章 研究方法 17  3.1 研究限制與名詞定義 17   3.1.1 研究限制 17   3.1.2 名詞定義 18  3.2 IBR 演算法 20   3.2.1 資料前置處理 21   3.2.2 IBR-1演算法及 IBR-2演算法 22  3.3 KORD 演算法  25  3.4 效能測試方法 27 第四章 實證研究 29  4.1 實證環境及參數設定 29  4.2 實證資料檔 30  4.3 實證結果及分析 31 第五章 結論與建議  40 參考文獻 43

    中文

    武家慶 (2001),“適用於挖掘多層次聯結規則的架構”,逢甲大學資訊工程學系碩士班碩士論文。

    張恭維 (2001),“結合關聯法則與模糊叢聚之網際探勘架構”,元智大學資訊管理學系碩士班碩士論文。

    劉泓郁 (2003),“建構一個以模糊關聯法則為基礎之產品開發系統”,元智大學工業工程與管理研究所碩士論文。

    英文

    Agrawal, R. and Srikant, R. (1994), Fast algorithms for mining association rules, Proceedings of International Conference on Very Large Data Bases, 487-499.

    Bayardo, R. J. and Agrawal, R. (1999), Mining the most interesting rules, Proceedings of ACM SIGMOD Conference on Management of Data, 145-154.

    Brin, S., Motwani, R., Unman, J. D., and Tsur, S. (1997a), Dynamic itemset counting and implication rules for market basket data, Proceedings of ACM SIGMOD Conference on Management of Data, 255-264.

    Brin, S., Motwani, R., and Silverstein, C. (1997b), Beyond market baskets: generalizing association rules to correlations, Proceedings of the 1997 ACM SIGMOD International Conference on Management of Data, 265-276.

    Coenen, F., Goulbourne, G., and Leng, P. (2004), Tree structures for mining association rules, Data Mining and Knowledge Discovery, 8, 25-51.

    Delgado, M., Sánchez, D., Martín-Bautista, M. J., and Vila, M. (2001), Mining association rules with improved semantics in medical databases, Artificial Intelligence in Medicine, 21, 241-245.

    Freitas, A. A. (1999), On rule interestingness measures, Knowledge-Based Systems, 12(5-6), 309-315.

    Ganti, V., Gehrke, J., and Ramakrishnan, R. (1999), Mining very large databases, IEEE Computer, 32, 38-45.

    Han, J. and Fu, Y. (1995), Discovery of multiple-level association rules from large databases, Proceedings of the Very Large Data Bases Conference, 420-431.

    Han, J., Koperski, K., and Stefanovic, N. (1997), Geominer : A system prototype for spatial data mining, Proceedings of the ACM SIGMOD International Conference on Management, 553-556.

    Klemettinen, M., Mannila, H., Ronkainen, P., Toivonen, H., and Verkamo, A. I. (1994), Finding interesting rules from large sets of discovered association rules, Proceedings of the Third International Conference on Information and Knowledge Management, 401-407.

    Park, J.S., Chen, M. S., and Philip, S.Y. (1995), An effective hash-based algorithm for mining association rules, Proceedings of the ACM SIGMOD Conference on Management of Data, 175-186.

    Piatetsky-Shapiro, G. (1991), Discovery, Analysis and Presentation of Strong Rules, Knowledge Discovery in Databases, Menlo Park, CA:AAAI Press, 229-248.

    Savasere, A., Omiecinski, E., and Navathe, S. (1995), An efficient algorithm for mining association rules in large databases, Proceedings of International Conference on Very large Data Bases, 432-444.

    Savasere, A., Omiecinski, E., and Navathe, S. (1998), Mining for strong negative associations in a large database of customer transactions, Proceedings of the International Conference on Data Engineering, 494-502.

    Silberschatz, A. and Tuzhilin, A. (1995), On subjective measures of interestingness in knowledge discovery, First International Conference on Knowledge Discovery and Data Mining, 275-281.

    Toivonen, H. (1996), Sampling large databases for association rules, Proceedings of International Conference on Very Large Data Bases, 134-145.

    Webb, G. I. (1995), OPUS: An efficient admissible algorithm for unordered search, Journal of Artificial Intelligence Research, 3, 431-465.

    Webb, G. I. and Zhang, S. (2005), k-Optimal-Rule-Discovery, Data Mining and Knowledge Discovery, 10(1), 39-79

    Zaki, M. J. and Hsiao, C. J. (2002), CHARM: An efficient algorithm for closed itemset mining, Proceedings of the 2nd SIAM International Conference on Data Mining, 99-110.

    Zaki, M. J. (2004), Mining non-redundant association rules, Data Mining and Knowledge Discovery, 9, 223-248.

    Zheng, Z., Kohavi, R., and Mason, L. (2001), Real world performance of association rule algorithms, Proceedings of the Seventh International Conference on Knowledge Discovery and Data Mining, 401-406.

    Zhang, C. and Zhang, S. (2002), Association Rule Mining : Models and Algorithms, Springer-Verlag, Berlin.

    下載圖示 校內:2006-07-06公開
    校外:2007-07-06公開
    QR CODE