簡易檢索 / 詳目顯示

研究生: 鄭凱澤
Cheng, Kai-Tse
論文名稱: 獨家新聞辨識系統
An Exclusive News Identification System
指導教授: 王宗一
Wang, Tzone-I
學位類別: 碩士
Master
系所名稱: 工學院 - 工程科學系碩士在職專班
Department of Engineering Science (on the job class)
論文出版年: 2016
畢業學年度: 104
語文別: 中文
論文頁數: 42
中文關鍵詞: CKIPCosine SimilarityGoogle Custom SearchHTML DOM Parser
外文關鍵詞: CKIP, Cosine Similarity, Google Custom Search, HTML DOM Parser
相關次數: 點閱:58下載:8
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 在網際網路盛行的時代,也改變了媒體傳播的方式及生態。資訊的傳遞更加快速,我們每天接受訊息的數量遠遠超過想像,面對如此海量的資訊令我們開始懷疑他們是否具有一定的內容品質,我們接收的到底是正確有用的或是所謂的垃圾訊息,正是我們面臨思考的問題。因此本研究提出一套系統方法來辨別新聞的獨家性,並可以讓使用者透過判斷新聞獨家性來思考新聞的真實性,此系統實做流程應用了google瀏覽器的開發技術進行特定網域之新聞搜尋、CKIP斷詞系統作為新聞標題關鍵字之萃取及搜尋所得之新聞內容斷詞以作為詞頻計算之使用、CURL過濾網頁內容以取得純粹之新聞內容、以及搭配Cosine Similarity演算法來進行新聞內容相似度比對。
    本研究利用20筆人工判斷為獨家之新聞來進行系統訓練,然後以隨機瀏覽100篇新聞內容並判斷其為獨家來驗證本系統的準確率。從實驗結果得到判斷之準確度(Precision)為67%、取回率(Recall)為24%。從實驗數據中可推論出新聞內容因為同質性相近的關係會影響整體結果,當內容敘述同樣人事物但呈現不同事實時也會導致實驗結果相似。實驗過程中也因為比對到轉貼的內容而影響了獨家性的判斷。雖然結果還有改進空間,但本研究希望藉由探討判斷新聞文本的獨家正確性,能使閱聽人對於閱讀內容多作思考,並產生追求真相的想法,進而作為研究新聞文本真實性判斷的開端

    The Internet popularity changes the way of broadcasting information and the ecology of the media services. Rapid information broadcasting through networks piles up the number of information we receive every day that is beyond our imagination. Facing such floods of information makes us begin to wonder if their content is up to a certain quality and what we received are correct and useful or just spams. This research proposes a systematic approach for judging if a piece of news from the Internet is exclusive and, from which, one can also begin to think and judge the correctness and the truth of a news. The implementation of the proposed approach includes using Google Custom Search to search for Chinese news articles from specific news websites, using the Chinese Word Segmentation System - CKIP for getting the keywords from the title of the targeted exclusive news and getting all the words from the contents of searched news articles for counting the frequencies of these words, using php cURL and HTML DOM Parser to get news articles and filter out irrelevant words in the webpages, and using cosine similarity algorithm to calculate the similarity between two news articles. Although the system still needs improvement, the judgement of exclusive news in this research can make people begin to think and judge the correctness and the truth of a news and lead the way to investigate the automatic judgement of the truth or correctness of a news.

    中文摘要 I 英文摘要 II 表目錄 IX 圖目錄 X 第1章 緒論 1 1.1 研究背景 1 1.2 研究動機 1 1.3 研究目的 2 1.4 論文架構 2 第2章 文獻探討 3 2.1 獨家新聞研究探討 3 2.1.1 新聞起源 3 2.1.2 何謂獨家新聞 4 2.1.3 資訊化對獨家新聞的影響 5 2.2 文本分析技術探討 6 2.2.1 中文斷詞 6 2.2.2 TF-IDF 7 2.2.3 餘弦相似性 8 2.2.4 cURL 11 2.2.5 HTML DOM 13 2.2.6 Chrome Extension 15 第3章 獨家新聞辨識系統設計與架構 20 3.1 系統規劃 20 3.2 系統架構設計 21 3.3 系統設計方法 22 3.3.1 CKIP Library 22 3.3.2 Google Custom Search API 23 3.3.3 HTML DOM Parser 26 3.3.4 Domain Analysis 28 3.3.5 Chrome Extension 28 第4章 研究結果 30 4.1 資料集 30 4.2 實驗流程 30 4.3 實驗結果 34 4.3.1 訓練 34 4.3.2 驗證 34 4.4 實驗評量 35 第5章 結論 37 5.1.1 研究貢獻 37 5.1.2 研究限制 37 5.1.3 未來研究 39 參考文獻 40 附錄 I 附錄表1. 訓練資料 I 附錄表2. 測試資料 III 附錄表3. 資料庫架構 XII 附錄表4. 中研院平衡語料庫詞類標記集 XIII 附錄表5. Google Custom Search Api表 XV 附錄表6. Google Custom Search 搜尋 XVII

    [1] 中研院資訊科學所詞庫小組, 中文斷詞系統,[Online].Available: http://ckipsvr.iis.sinica.edu.tw/
    [2] 余弦计算相似度度量,[Online].Available: http://blog.csdn.net/u012160689/article/details/15341303
    [3] 吳泰勳,「一個對單篇中文文章擷取關鍵字之演算法」,國立政治大學資訊科學系碩士論文,民國一○二年。
    [4] 陳立,「中文情感語意自動分類之研究」,國立台灣師範大學資訊工程研究所碩士論文,民國九十九年。
    [5] 陳宜惠、呂瑞麟、黃政傑,「斷詞系統對於Queried keywords的影響」,TANET2013臺灣網際網路研討會,2013年。
    [6] 倒金字塔式寫作,[Online].Available:
    http://eeluck.pixnet.net/blog/post/27748349-倒金字塔式寫作
    [7] 第四階級,[Online].Available:
    https://zh.wikipedia.org/wiki/第四階級
    [8] 張騄遠,「電視新聞記者獨家新聞之資訊分享研究」,國立政治大學傳播學院碩士在職專班碩士論文,民國一○一年。
    [9] 楊德倫,文字探勘之前處理與TF-IDF介紹,[Online].Available: http://www.cc.ntu.edu.tw/chinese/epaper/0031/20141220_3103.html
    [10] 餘弦相似性,[Online].Available:
    https://zh.wikipedia.org/wiki/余弦相似性
    [11] 機器學習中的相似性度量,[Online].Available:
    http://tiredapple.pixnet.net/blog/post/4757594-機器學習中的相似性度量
    [12] Chrome Extensions,[Online].Available:
    https://developer.chrome.com/extensions/
    [13] Chrome Extension基本架構介紹,[Online].Available:
    http://jzlin-blog.logdown.com/posts/143437-getting-started-with-basic-structure-introduction
    [14] Client URL Library,[Online].Available:
    http://php.net/manual/en/book.curl.php
    [15] CKIP Library(JAVA),[Online].Available:
    http://jackytung8085.blogspot.tw/2013/10/java-ckip-wordsegmentationservice.html
    [16] Enge, E., & Biundo, J. (2007). Google custom search engines (Google CSEs).
    [17] HTML DOM,[Online].Available:
    http://www.w3schools.com/jsref/dom_obj_document.asp
    [18] mmseg4j 中文斷詞java 實作,[Online].Available: http://function1122.blogspot.tw/2010/10/mmseg4j-java-55.html
    [19] TF-IDF与余弦相似性的应用(二):找出相似文章,[Online].Available: http://blog.csdn.net/guoshenglong11/article/details/25482087
    [20] TF-IDF,[Online].Available:
    https://zh.wikipedia.org/wiki/TF-IDF
    [21] H. Wu and R. Luk and K. Wong and K. Kwok. "Interpreting TF-IDF term weights as making relevance decisions". ACM Transactions on Information Systems, 26 (3). 2008.
    [22] Ma, W. Y., & Chen, K. J. (2003, July). Introduction to CKIP Chinese word segmentation system for the first international Chinese Word Segmentation Bakeoff. In Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17 (pp. 168-171). Association for Computational Linguistics.

    下載圖示 校內:立即公開
    校外:立即公開
    QR CODE