簡易檢索 / 詳目顯示

研究生: 傅文祥
Fu, Wen-Hsiang
論文名稱: 基於向量空間模型之異質題庫整合改進方法
An improved method based on vector-space model for integration of heterogeneous itembanks
指導教授: 楊竹星
Yang, Chu-Sing
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 電腦與通信工程研究所
Institute of Computer & Communication Engineering
論文出版年: 2009
畢業學年度: 97
語文別: 中文
論文頁數: 43
中文關鍵詞: 潛在語意索引向量空間模型數位學習文件分類
外文關鍵詞: Document Categorization, E-Learning, Vector Space Model, Latent Semantic Indexing
相關次數: 點閱:76下載:3
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 今日,自動文件分類〈Automated Document Categorization〉已被應用到許多領域。例如,資訊檢索〈Information Retrieval〉、資料探勘〈Data Mining〉、人工智慧〈Artificial
    Intelligence〉、自然語言處理〈Natural Language Processing〉與數位學習〈E-Learning〉等。隨著數位學習的快速發展,數位學習內容也跟著快速增加。但是由於不同的學習內容開發人員對於相近的教學目標有不同的學習綱要,這形成數位學習內容在整合上
    的困難。現今數位學習的發展逐漸走向適性化學習〈Adaptive Larning〉,或稱為個人化學習〈Prsonalization〉。強調針對不同的學習者,給予不同的學習內容,以配合不同學習者的學習情況。在這樣的環境下,學習評量〈Assessment〉作為了解學習者學習狀況最常用的工具。目前自動化學習評量的有效性跟題庫〈Itembanks〉內容的充實程度有密切的相關。本篇論文將以國小4年級社會科與自然科的南一版、翰林版與康軒版題庫為例,研究如何利用向量空間模型與潛在語意索引的技術進行異質題庫的自動化整合。

    Lately, Automated Document Categorization has been used in many fields. For example, Information Retrieval, Data Mining, Artificial Intelligence, Natural Language Processing, E-Learning, etc. Digital content becomes huge by the quick development of E-Learning. Because the content providers have different views to the similar learning objects, the schemas of the content is different. This is the difficulty of integration of digital content. Adaptive learning is a trend in E-Learning. Adaptive learning (personalization) focuses on providing the different Digital content with different learners and their situation. For the purpose above, Assessment can be a common tool to realize the status of learning. The effectiveness of automatic learning assessment depends on the Itembanks. This thesis focuses on the Sociality course and Nature course of elementary schools in Taiwan. We use the technology of Vector Space Model(VSM) and Latent Semantic Indexing(LSI) to integrate the different Itembanks from different provider.

    摘要 ii Abstract iii 誌謝 iv 目錄 v 表目錄 vii 圖目錄 viii 第1章 緒論 1 1.1 研究動機及目的 1 1.2 論文架構 2 第2章 相關研究探討 3 2.1 文件分類 3 2.1.1 文件分類概述 3 2.1.2 文件分類演算法概述 4 2.2 中文試題分類 5 2.2.1 中文試題分類概述 5 2.2.2 中文試題分類相關論文 6 2.3 相關理論與公式 8 2.3.1 向量空間模型〈Vector Space Model〉 8 2.3.2 潛在語意索引〈Latent Semantic Indexing〉 9 第3章 研究方法與系統模型 11 3.1 系統流程圖〈System Flowchart〉 11 3.2 匯入題目〈Import Questions〉 12 3.3 中文斷詞〈Chinese Segmentation〉 14 3.3.1 中文斷詞前處理〈Chinese Segmentation Preprocessing〉 14 3.3.2 使用中文斷詞系統〈Using CKIP〉 14 3.3.3 中文斷詞後處理〈Chinese Segmentation Postprocessing〉 16 3.4 關鍵字處理〈Keywords Processing〉 17 3.5 使用VSM作相似度比對〈Similarity Matching Using VSM〉 18 3.6 敘述加權〈Weighted Content〉 19 3.6.1 是非題〈True or False〉 19 3.6.2 單選題〈Multiple Choice〉 20 3.7 使用潛在語意索引〈Using Latent Semantic Indexing〉 21 3.8 分類演算法〈Classification Algorithm〉 23 第4章 實驗結果比較與評估 24 4.1 實驗資料與環境 24 4.2 實驗結果 24 4.3 評估 32 第5章 結論與未來研究方向 34 5.1 結論 34 5.2 未來研究方向 34 參考文獻 35 附錄 39 1各科目各版本章節名稱與資料庫內編號對照 39

    [1] 成偉鈞、唐仲揚與向宏業,「修辭通鑑」,中國青年出版社,北京,頁578,1991。
    [2] 杜海倫,「以標題進行新聞自動分類」,國立清華大學資訊工程研究所碩士論文,1999。
    [3] 呂盈輝,「應用數位學習之中文試題分類技術」,國立中正大學資訊工程研究所碩士論文,2002。
    [4] 吳佳昇,「使用貝氏潛在語意分析於文件分類及資訊檢索」,國立成功大學資訊工程研究所碩士論文,2005。
    [5] 邱建明,「結合影像與文字辨識的網路色情過濾」,國立中央大學資訊工程研究所碩士論文,2004。
    [6] 邱郁芬,「以區域聯防為基礎之垃圾郵件防治研究」,國立中山大學資訊管理研究所碩士論文,2006。
    [7] 范長康與蔡文祥,「以鬆弛法作中文斷詞」,全國計算機會議論文集,頁423-431,1987。
    [8] 陳克健、陳正佳與林隆基,「中文語句分析的研究—斷詞與構詞」,TR-86-004,中央研究院,1986。
    [9] 張翔宇,「應用本體論建構自動化試題分類機制之研究」,國立台灣師範大學工業教育研究所碩士論文,2004。
    [10] 郭瓊蓉,「文件分類於電子化政府之應用:以政府機關市長信箱民眾陳情案件為例」,國立中山大學資訊管理研究所碩士論文,2006。
    [11] 馮琪惠,「以教材結構為基礎之自動化試題分類測驗系統」,國立中山大學資訊工程研究所碩士論文,2007。
    [12] 曾世邦,「異質學習評量題庫內容之整合」,陸軍官校八十四週年校慶基礎學術研討會,2008。
    [13] 曾憲雄、蔡秀滿、蘇東興、曾秋蓉與王慶堯,「資料探勘」,旗標出版社,台北,頁5-1 - 5-36,2008。
    [14] 鄭淑真、林彥廷與黃悅民,「以決策樹為基礎之數位學習題庫自動分級系統」,全國計算機會議,2005。
    [15] 錢炳全與廖雙德,「中文試題自動分類方法」,第七屆人工智慧與應用研討會論文集,頁125-131,2002。
    [16] 中研院中文斷詞系統,http://ckipsvr.iis.sinica.edu.tw/。
    [17] 中研院中文斷詞系統--帳號申請,http://ckipsvr.iis.sinica.edu.tw/webservice.htm。
    [18] 中研院中文斷詞系統--傳送資料格式,http://ckipsvr.iis.sinica.edu.tw/apply.htm。
    [19] 高速格網學習系統,http://140.116.177.17/hgls/。
    [20] R. Armstrong, D. Freitag, T. Joachims, and T. Mitchell, “WebWatcher : A Learning Apprentice for the World Wide Web”, in Proceedings of AAAI Spring Symposium
    on Information Gathering from Heterogeneous, Distributed Environment, AAAI Press,1995.
    [21] H. Chen, Y.M. Chung, M. Ramsey, and C.C. Yang,“An intelligent Personal Spider (Agent) for Dynamic Internet/Intranet Searching”, Decision Support System, vol. 23, pp. 41-58, 1998.
    [22] F.M. Lord, “Applications of item response theory to practical testing problems”,Hillsdale, NJ: Lawrence Erlbaum Associates., 1980.
    [23] D. Lewis and M. Ringuette, “A Comparison of Two Leaming Algorithms for Text Classification”, In Third Annual Symposium on Document Analysis and Information
    Retrieval, pp. 81-93, 1994.
    [24] M.E. Maron, “Automatic Indexing: An Experimential Inquiry”, Journal of the ACM, 8, pp. 404-417 , 1961.
    [25] D. Mladenic, “Turning Yahoo into an Automatic Web-Page Classifier”, Proceedings of the 13th European Conference on Artificial Intelligent (ECAI98), pp. 473-474, 1998.
    [26] W.H. Press, S.A. Teukolsky, W.T. Vetterling, and B.P. Flannery, “Numerical Recipes in C : The Art of Scientific Computing”, CAMBRIDGE UNIVERSITY PRESS, New York, pp.59-70, 1992.
    [27] C.H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala, “Latent semantic indexing: a probabilistic analysis”, Proceedings of the seventeenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems,
    pp. 159-168, 1998.
    [28] J.J. Rocchio, “Relevance feedback in information retrieval.”, The SMART Retrieval System: Experiments in Automatic Document Processing, G. Salton, ed.Prentice-Hall, Englewood Cliffs, New Jersey, pp.313-323, 1971.
    [29] B.Y. Ricardo, and R.N. Bethier, “Modern Information Retrieval”, Addison-wesley, pp.44-45, 1999.
    [30] G.. Salton, A. Wong, C.S. Yang, “A Vector Space Model for Automatic Indexing”, Commun. ACM, vol. 18, pp. 613-620, 1975.
    [31] C.W. Tsai, S.P. Tseng, M.C. Chiang, and C.S. Yang, “An ontology-based method for integrating heterogeneous itembanks”, In the 9th International Conference on
    Intelligent Systems Design and Applications, 2009.
    [32] V.N. Vapnik, “The Nature of Statistical learning Theory”, Springer-Verlag, New York, 1995.
    [33] E. Wiener, J.O. Pedersen , and A.S. Weigend, “A Neural Network Approach to Topic Spotting”, In Proceedings of the 4th Annual Symposium on Document Analysis and Information Retrieval, pp. 22-34, 1993.
    [34] C.L. Yeh and H.J. Lee, “Rule-Based Word Identification for Mandarin Chinese Sentences-A Unification Approach”, Computer Processing of Chinese and Oriental Languages, Vol. 5, No. 2, pp. 97-118, 1991.
    [35] Y. Yang and J.P. Pedersen, “A Comparative Study on Feature Selection in Text Categorization”, In the 14th International Conference on Machine Learning, pp. 412-420, 1997.
    [36] SCORM2004, http://www.adlnet.gov/Technologies/scorm/default.aspx

    下載圖示 校內:2012-09-03公開
    校外:2012-09-03公開
    QR CODE