簡易檢索 / 詳目顯示

研究生: 洪晟淯
Hong, Sheng-Yu
論文名稱: 利用 EM 演算法在未標籤資料下虛擬標籤效果
Pseudo Labeling for Imperfect Data Using Expectation-Maximization Algorithm
指導教授: 陳瑞彬
Chen, Ray-Bing
學位類別: 碩士
Master
系所名稱: 管理學院 - 數據科學研究所
Institute of Data Science
論文出版年: 2020
畢業學年度: 108
語文別: 中文
論文頁數: 34
中文關鍵詞: 半監督式學習EM 演算法主動式學習虛擬標籤
外文關鍵詞: semi-supervised learning, EM algorithm, active learning, pseudo label
相關次數: 點閱:181下載:35
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 本論文的研究方向是關於半監督式學習(semi-supervised learning),所以資料中包含有標籤及未標籤的資料,而我們主要探討是如何有效率地整合標籤及未標籤的資料在機器學習的議題上。
    本研究將已標籤資料加上未標籤資料共同用EM 演算法來估計模型的參數值,依據EM 演算法的參數值給予未標籤資料虛擬標籤,並連同已標籤資料來訓練分類器。我們將問題探討分為兩個部分,第一個部分是當已標籤資料固定數量下,未標籤資料越多,利用EM 演算法給予的虛擬標籤是否能幫助降低分類器的錯誤率?但基於我們的模型假設下,原先Cannings 等人(2019)的結果並不適用,也就是在一定比例的未標籤資料下,樣本總數雖多到一定程度,而分類的效果卻未如預期。
    第二部分,我們研究在主動式學習上,利用虛擬標籤後的未標籤資料連同已標籤資料一同來訓練分類器,並從不同的選點方法中找到更好提升分類器準確率和AUC 的點。在模擬資料中,我們的虛擬標籤方法跟EM 估計LDA 參數的方法相比,在一些情境下測試集的AUC 數值會有較好的表現;另外在實例資料中,也可以得知兩種方法相比,虛擬標籤的方法稍好。

    In this thesis, we consider the semi-supervised learning. That is that there are labeled and unlabeled points in our data set. The goal is to successfully integrate the information from labeled and unlabeled points with respect to the machine learning problems.
    To integrate the labeled and unlabeled points, under certain model assumptions, the EM algorithm is adopted for the parameter estimations and then we also can assign the pseudo labeled for these unlabeled points. Two different semi-supervised learning problems are considered in this thesis. In the first part, we want to see if the results of Cannings et al. (2019) can be still held in the semi-supervised learning scenarios. However, due to our simulation results, their results may not be held in the semi-supervised learning.
    In the second part, the active learning is considered. Here we assign the labels for these unlabeled points based on the model estimated via EM algorithm and then a classification approach is implemented. The simulation results do support that the proposed method can have the better AUC values in some simulation scenarios.

    摘要 II 英文延伸摘要 III 誌謝 XII 目錄 XIII 圖目錄 XV 表目錄 XVII 第一章 緒論 1 1.1 研究背景與動機 1 1.2 章節介紹 1 第二章 文獻回顧 3 第三章 研究方法 6 3.1 EM 演算法(Expectation-Maximization Algorithm) 6 3.2 實驗一:基於EM 演算法的虛擬標籤效果 7 3.3 實驗二:主動式學習下虛擬標籤效果 8 第四章 實驗一:基於EM 演算法的虛擬標籤效果 10 4.1 模擬資料 10 4.2 模擬結果 11 4.2.1 分類錯誤率 11 4.2.2 整體虛擬標籤錯誤率 15 4.2.3 個別資料點的虛擬標籤錯誤率 18 第五章 實驗二:主動式學習下虛擬標籤效果 22 5.1 模擬資料 22 5.2 模擬結果 23 5.3 實例資料 26 第六章 結論 29 參考文獻 30 附錄 31 附錄 A. 實驗二 - 主動式學習下虛擬標籤效果模擬資料AUC結果 31 附錄 B. 實驗二 - 主動式學習下虛擬標籤效果模擬資料準確率(ACC)結果 32

    [1]. Abreu, N. et al. (2011). Analise do perfil do cliente Recheio e desenvolvimento de um sistema promocional. Mestrado em Marketing, ISCTE-IUL, Lisbon.
    [2]. Cannings, T. I., Fan, Y., and Samworth, R. J. (2020). Classification with imperfect training labels. Biometrika, 107(2), 311-330.
    [3]. Ke, B. S., Chiang, A. J., and Chang, Y. C. I. (2018). Influence analysis for the area under the receiver operating characteristic curve. Journal of Biopharmaceutical Statistics, 28(4), 722-734.
    [4]. Nigam, K., McCallum, A. K., Thrun, S., and Mitchell, T. (2000). Text classification from labeled and unlabeled documents using EM. Machine Learning, 39(2-3), 103-134.
    [5]. Pepe, M. S. (2003). The statistical evaluation of medical tests for classification and prediction. Medicine.
    [6]. 林巧玲(2019),利用 EM 演算法優化線性區別分析分類器下的主動學習演算法,國立成功大學統計研究所碩士論文。

    下載圖示 校內:立即公開
    校外:立即公開
    QR CODE