簡易檢索 / 詳目顯示

研究生: 陳震宇
Chen, Cheng-Yu
論文名稱: 自動產生淬取基因與基因作用關係之規則
Mining Extraction Rules from Biomedical Documents
指導教授: 蔣榮先
Chiang, Jung-Hsien
學位類別: 碩士
Master
系所名稱: 電機資訊學院 - 資訊工程學系
Department of Computer Science and Information Engineering
論文出版年: 2003
畢業學年度: 91
語文別: 中文
論文頁數: 62
中文關鍵詞: 文件探勘、資訊萃取、萃取規則、序列性模式探勘
外文關鍵詞: Text Mining、Information Extraction、Extraction
相關次數: 點閱:89下載:1
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文提出結合文件探勘和序列性模式探勘的方法,以自動產生淬取醫學文件中”基因和基因之間作用關係”的規則;內容共分為以下若干個部份: 首先以文件中自然語言書寫的習慣,配合文件探勘技術和序列性模式探勘方法,找出在句中可能具有描述基因和基因之間作用關係的模式;接下來將已產生的模式,作為資訊淬取技術的”淬取規則”,由醫學文件中符合淬取規則的基因之間的關係淬取出來,然後將這些輸出結果合併,例如,”基因A 作用關係基因B”和”基因B 作用關係 基因C”可以結合成”基因A 作用關係 基因B 作用關係 基因C”,所有的關係句合併之後,將會形成”基因-基因作用關係網路”,其中,”作用關係字 ”等事先定義的正負向調控關係關鍵字,最後,以圖形的方式呈現基因和基因之間的作用關係。我們會提供以圖形化介面的程式提供使用由大量醫學文件中淬取基因之間的作用關係,並以”PubMed”提供的醫學文件,作為驗証本論文在實際上可行性的資料集。

    None

    章節目錄 第一章 導論.......................................................1 1.1 概論.......................................................1 1.2 研究動機...................................................1 1.3 解決方法...................................................2 1.4 論文架構...................................................2 第二章 相關研究...................................................4 2.1 資料探勘和序列性模式.......................................4 2.2 資訊淬取...................................................6 2.3 生物資訊...................................................7 2.3.1 自動淬取出蛋白質間作用關係...........................9 2.3.2 PubGene System......................................11 2.3.3 Suiseki 資訊淬取系統................................13 第三章 自動產生資訊淬取系統的模式................................14 3.1 序性模式探勘與自然語言之特性..............................14 3.2 以視覺圖形的方式展示基因間的關係..........................15 3.3 系統架構圖................................................17 3.3.1 文件的前處理........................................18 3.3.2 將文件資料轉換成序列性資料..........................22 3.4 自動產生資訊淬取之規則....................................23 3.4.1 產生淬取規則之方....................................23 第四章 實驗與結果分析............................................27 4.1 實驗資料集介紹.............................................27 4.1.1 資料來源與下載方法..................................27 4.1.2 文件格式與資料前處理................................28 4.1.3 訓練樣本的產生......................................30 4.2 系統自動產生之規則.........................................32 4.3 實驗結果...................................................33 4.4 將基因與基因之間作用關係視覺化.............................34 4.5 與相關研究的結果比較.......................................35 4.5.1 與PubGene系統的比較................................35 4.5.2 與Seisuki系統的比較................................36 第五章 結論與未來展望............................................37 5.1 結論.......................................................37 5.2 未來展望...................................................37 參考文獻..........................................................39 附錄A 詞性標記列表..............................................41 附錄B 模式比對函式之虛擬碼......................................43 附錄C 產生序列資料每個過程的資料格式列表.........................47 附錄D 系統自動產生的淬取規則....................................48 圖例 圖2-1 資料探勘行程示意圖.........................................4 圖2-2 由大量的科學文獻中淬取出蛋白質間的作用係...................9 圖2-3 資訊淬取系統的輸出結果....................................11 圖2-4 基因網路瀏灠器............................................12 圖2-5 基因表現分析工具..........................................12 圖2-6 Suiseki System............................................13 圖3-1 句中先後出現字的換詞性示意圖..............................14 圖3-2 基因與基因之間的關係圖....................................16 圖3-3 系統架構圖................................................17 圖3-4 前處理五個步驟的流程圖....................................21 圖3-5 將句子轉為可被序列性模式探勘演算法運算的格式..............22 圖3-6 從訓練樣本到所有1-Sequence產生的流程圖...................23 圖3-7 1-Sequence的範例..........................................25 圖3-8 訓練樣本與探勘得到的序列性模式的比較......................25 圖3-9 產生序列性模式的流程......................................26 圖4-1 PubMed查詢所得文件之格式..................................29 圖4-2 詞性標記之後的文件內容....................................30 圖4-3 標記基因名稱和作用關係字後的文句..........................30 圖4-4 目標句之過濾器............................................31 圖4-5 基因子網路關係圖..........................................34 圖4-6 PubGene 與本系統功能相較圖................................35 表格 表2-1 序列性模式解說範例.........................................5 表2-2 資訊淬取系統的輸出結果.....................................7 表2-3 資訊淬取系統中事先以專家人工定義的模式集合................10 表3-1 簡化複雜句型的兩個規則....................................20 表4-1 本系統自動產生的描述基因與基因之作用關係之文法規則........32 表4-2 以膀胱癌相關文件測試的結果................................33 表4-3 PubGene與本系統結果差異的主要因素列表.....................35 表4-4 Suiseki System淬取蛋白質作用關係的實驗結果................36

    參考文獻

    [1] Agrawal R. and R. Srikant. ; Fast algorithms for mining association rules in large databases. In VLDB-94, September 1994.
    [2] Agrawal R. and R. Srikant. ; Mining Sequential Patterns. In Proc. of the 11th Int'l Conference on Data Engineering, Taipei, Taiwan, March 1995.
    [3] Apte C, F. Damerau and S. Weiss. ; Text Mining with Decision Rules and Decision Trees. Workshop on Learning from Text and the Web, Conference on Automated Learning and Discovery, Pitts burgh, PA, 1998.
    [4] Blaschke C. and A. Valencia ; The Frame-based Module of the SUISEKI Information Extraction System. IEEE Intelligent Systems, pages 14-20, 2002.
    [5] Brill E. ; A simple rule-based part of speech tagger. In Proceedings of the Third Conference on Applied Natural Language Processing, ACL, Trento, Italy, 1992.
    [6] Grishman R. ; Information extraction: Techniques and challenges. In Maria Teresa Pazienza, editor, Information Extraction. Springer-Verlag, Lecture Notes in Artificial Intelligence, Rome, 1997.
    [7] Jenssen T., A. Lagreid, J. Komorowski and E. Hovig ; A literature network of human genes for high-throughput analysis of gene expression. Nature genetics, volume 28, pages 21 – 28, 2001.
    [8] Marcotte E. M., L. Xenarios, and D. Eisenberg ; Mining literature for protein-protein interactions. Bioinformatics, Vol. 17, pages 359-363, 2001.
    [9] Neto, J. L., A. D. Santos, C. A. A. Kaestner, and A. A. Freitas (2000). ; Document Clustering and Text Summarization. In Proceedings, 4th Int. Conference on Practical Applications of Knowledge Discovery and Data Mining (PADD-2000), 41-55. London: The Practical Application Company.
    [10] Ono T. ; Automated extraction of information on protein-protein interactions from the biological literature, Bioinformatics Volume 17, Issue 11, November 2 2001
    [11] Palakal M., M. Stephens, S. Mukhopadhyay, R. Raje, and S. Rhodes ; A Multi level Text Mining Method to Extract Biological Relationships. IEEE Computer Society Bioinformatics Conference, August 14 - 16, 2002.
    [12] Park J. S., M. Chen, and P. S. Yu. ; An effective hash based algorithm for mining association rules. In ACM SIGMOD Intl. Conf. Management of Data, May 1995.
    [13] Riloff E. ; Automatically constructing a dictionary for information extraction tasks. In Proceedings of the Eleventh National Conference on Artificial Intelligence, AAAI Press / MIT Press, pages 811-816, 1993.
    [14] Riloff E. and J. Shoen ; Automatically Acquiring Conceptual Patterns Without an Annotated Corpus. In Proceeding of the Third Workshop on very Large Corpora, 148-161, 1995.
    [15] Riloff E. ; Automatically Generating Extraction Patterns from Untagged Text. In Proceedings of the Thirteenth National Conference on Artificial Intelligence, Portland, OR, 1044-1049, 1996.
    [16] Staab S. ; Mining information for Functional Genomics. IEEE Intelligent System, 2002.
    [17] Thomsa J., D. Milward, C. Ouzounis, S. Pulman and M. Carroll ; Automatic Extraction of Protein Interactions from Scientific Abstract. In Altman et al. [3], pages 538—549, 2000.
    [18] Usama M. F., G. Piatetsky-Shapiro, and P. Smyth. ; Advances in Knowledge Discovery and Data Mining, chapter From Data Mining to Knowledge Discovery: An overview. AAAI/MIT Press, 1996.
    [19] Yen S. J. and A.L.P. Chen ; An Efficient Approach to Discovering Knowledge from Large Databases. 4th International Conference on Parallel and Distributed Information Systems (PDIS '96) , December 18 - 20, 1996.

    下載圖示 校內:立即公開
    校外:2003-08-05公開
    QR CODE