簡易檢索 / 詳目顯示

研究生: 王鼎宏
Wang, Ting-Hung
論文名稱: 使用機器學習方法預測加權指數之研究
A Study of Predicting TAIEX Using Machine Learning Methods
指導教授: 王明隆
Wang, Ming-Long
學位類別: 碩士
Master
系所名稱: 管理學院 - 經營管理碩士學位學程(AMBA)
Advanced Master of Business Administration (AMBA)
論文出版年: 2016
畢業學年度: 104
語文別: 中文
論文頁數: 56
中文關鍵詞: 大數據機器學習線性迴歸決策森林加權指數預測
外文關鍵詞: Big data, Machine learning, Linear regression, Decision Forests, TAIEX prediction
相關次數: 點閱:144下載:58
分享至:
查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報
  • 近年來大數據分析的應用逐漸興盛,隨著科技的進步,資料儲存成本降低,資料的累積速度越來越迅速,許多資料無論現在是否有價值都被儲存下來,期望能成為將來資料探勘的寶山。大型資訊科技企業如Google提供語言翻譯與預測流感、IBM的Watson超級電腦、Amazon的商品推薦系統,甚至是傳統零售業Walmart的運籌管理系統,都是大數據分析應用機器學習方法的典型例子。透過機器學習方法,可以讓電腦學習了大量的資訊後,對於未來的資訊做出預測。股市的趨勢是投資人最想掌握的資訊,不同於前述企業應用的例子,股市有時間先後的關係,並非一個母體的概念,且涉及的資訊極為廣泛,但只要能夠掌握某種程度的預測,即可為投資人賺取豐厚的報酬。
    本研究以台灣股票市場的加權指數作為預測標的。使用相關每日經濟數據來做為特徵值集。比較線性迴歸、決策森林迴歸、以及二分類決策森林三種演算法來建立模型,以預測能力較高之演算法,進一步依4種不同數量的特徵值組合(17項、13項、9項、5項)、以及兩種較佳的訓練量(1167、279)來對不同測試期間(2010/2/2至2016/4/20共9組各150日)做驗證,以找出最合適的特徵值與訓練量,並測試模型在不同時期穩定度。結果顯示線性迴歸演算法有較高的預測能力,而以279筆訓練量、5項特徵值有較高的預測能力,在不同時期的平均準確率為64.59%,說明所建立的模型在預測台股大盤的漲跌上有一定的能力。本研究同時發現,近三年台股受到蘋果公司股價的影響日趨重大。

    In the concept of big data analysis, data scientists usually use the whole population to make analysis instead of using stochastic sampling. This research wants to apply the concept of big data analysis to stock prediction. The purpose of this research is to predict the next-day up or down of Taiwan Stock Exchange Capitalization Weighted Index (TAIEX), using machine learning methods including linear regression, decision forest regression, and two-classification decision forest to create models. Firstly, we choose the method which performs best in overall prediction to the second step. In the second step, we set the latest 150 days data as test set, using 4 different combinations of features to create models to find the best two training volumes. In the end, we examine 9 different test period using 4 different combinations multiplies 2 training volumes. Linear regression performs better in overall prediction. The best training volume is 279 and the best feature combination consists of 5 features, which has the least amount among 4 combinations. The best average prediction accuracy is 64.59%, which is slightly lower than prediction directly using NASDAQ Index. The results tell that in predicting stock markets using machine learning methods, we can use just a few but important features to create models without large training sets.

    目錄 VI 表目錄 VIII 圖目錄 IX 第一章 緒論 1  第一節 研究背景與動機 1  第二節 研究目的 3  第三節 研究架構 4 第二章 文獻探討與回顧 5  第一節 大數據 5   壹、 大數據的特徵 5   貳、 大數據的處理 6   參、 大數據的架構 9   肆、 大數據的應用 11  第二節 機器學習與資料探勘 12   壹、 機器學習的種類 14   貳、 機器學習工具 16   參、 決策森林(Decision Forests) 17   肆、 線性迴歸(Linear Regression) 18  第三節 總體經濟指標 19   壹、 匯率 19   貳、 利率 19   參、 國際指數 19   肆、 加權指數 21  第四節 國內外相關研究 22 第三章 樣本與研究方法 23  第一節 研究方法 23  第二節 研究樣本與期間 23  第三節 準確率計算 24 第四章 實證結果與探討 25  第一節 特徵值檢查 25   壹、 決定係數檢查(Coefficient of Determination) 25   貳、 同步漲跌能力檢查 26  第二節 機器學習方法比較 27   壹、 線性迴歸模型(Linear Regression) 27   貳、 決策森林迴歸模型(Decision Forest Regression) 29   參、 二分類決策森林(Two-Class Decision Forest Classification) 31  第三節 模型預測能力驗證 32   壹、 特徵值組合選取 34   貳、 不同特徵值與訓練量驗證 35   參、 不同期間驗證 39 第五章 結論 50  第一節 研究結論 50  第二節 研究限制 52  第三節 後續研究建議 53 參考文獻 54

    中文文獻
    Viktor Mayer-Schönberger與Kenneth Cukier。大數據(林俊宏譯)。天下文化。台北市。2013。
    王春笙。以技術指標預測台灣股市股價漲跌之實證研究-以類神經網路與複迴歸模式建構。碩士論文。國立台灣大學資訊管理研究所。1996。
    曲恬頤。運用決策樹與倒傳遞類神經網路建構台股之整合性投資策略。碩士論文。國立清華大學工業工程與管理研究所。2009。
    詹淑慧與王嘉隆。分類迴歸樹於亞洲股票市場獲利能力之研究。輔仁管理評論,14-1,41-60。2007。
    鐘嘉德、柴惠珍、高崎鈞、曹元良。我國大數據政策推動現況。國土及公共治理季刊,第三卷第四期,77-84。2015。

    英文文獻
    Altay, E., & Satman, M. H. “Stock Market Forecasting: Artificial Neural Network and Linear Regression Comparison in an Emerging Market”. Journal of Financial Management & Analysis, Vol.18 Issue 2, 18-33. 2005.
    Beyer M. A., John-David Lovelock, Dan Sommer, and Merv Adrian. “Big Data Drives Rapid Changes in Infrastructure and $232 Billion in IT Spending Through 2016”. Gartner’s Report. 2012.
    Dean, J., & Sanjay Ghemawat. “MapReduce: Simplified Data Processing on Large Clusters”. Google Research. 2004.
    Duggan, M., and D. Levitt. “Winning Isn’t Everything: Corruption in Sumo Wrestling”. American Economic Review, 92, 1594-1605. 2002.
    Fayyad U., Gregory Piatetsky-Shapiro, and Padhraic Smyth. “From Data Mining to Knowledge Discovery in Databases”. AI Magazine, Vol.17 No.3, 37-54. 1996.
    Ghemawat, S., Howard Gobioff, and Shun-Tak Leung. “The Google File System”. Google Research. 2003.
    Ginsberg, J., Matthew H. Mohebbi, Rajan S. Patel, Lynnette Brammer, Mark S. Smolinski & Larry Brilliant. “Detecting influenza epidemics using search engine query data”. Nature, Vol 457, 1012-1014. 2009.
    Laney, D. “3D Data Management Controlling Data Volume, Velocity, and Variety”. Application Delivery Strategies. META Group. 2001.
    Snijders, C., Matzat, U., Reips, U.-D. "'Big Data': Big gaps of knowledge in the field of Internet". International Journal of Internet Science, Vol.7, 1–5. 2012.
    Wu, X., Vipin Kumar, J. Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J. McLachlan, Angus Ng, Bing Liu, Philip S. Yu, Zhi-Hua Zhou, Michael Steinbach, David J. Hand, Dan Steinberg. “Top 10 algorithms in data mining”, Knowledge and Information Systems, Vol.14, 1-37. 2007.

    網路資料:
    Agrawal, D., Bernstein P., Bertino E., Davidson S., Dayal U., Franklin M., . . . Widom J. “Challenges and Opportunities with Big Data: A white paper prepared for the Computing Community Consortium committee of the Computing Research Association”. 2012. Retrieved from http://cra.org/ccc/resources/ccc-led-whitepapers/ ,(2016年5月12日參考)
    Apache Hadoop,What Is Apache Hadoop?,http://hadoop.apache.org/,(2016年4月12日參考)
    Google雲端機器學習,https://cloud.google.com/ml/,(2016年4月30日參考)。
    Josh Bersin。Big Data in Human Resources: A World of Haves And Have-Nots。2013。Forbes網站。http://www.forbes.com/sites/joshbersin/2013/10/07/big-data-in-human-resources-a-world-of-haves-and-have-nots/,(2016年5月30日參考)。
    Microsoft Azure,https://azure.microsoft.com/zh-tw/overview/what-is-azure/,(2016年1月13日參考)。
    Microsoft Azure MSDN,https://msdn.microsoft.com/zh-tw/library/azure/dn905974.aspx,(2016年3月10日參考)。
    Scikit-learn官方網站, http://scikit-learn.org/stable/,(2016年5月23日參考)。
    The World Economic Forum. “Executive Summary: The Future of Jobs and Skills”. 2016. Retrieved from http://www3.weforum.org/docs/WEF_FOJ_Executive_Summary_Jobs.pdf (2016年5月12日參考)
    Weka官方網站,http://www.cs.waikato.ac.nz/ml/weka/,(2016年5月23日參考)。
    上海證券交易所,http://www.sse.com.cn/,(2016年4月30日參考)。
    林安妮,大數據發展 將訂國家標準,聯合財經網,2015,http://money.udn.com/money/story/8032/1061107?ref=tab20150717,(2016年5月28日參考)。
    深圳證券交易所,http://www.szse.cn/,(2016年4月30日參考)。
    富比士:全球最大的上市公司排名,http://www.forbes.com/global2000/,(2016年4月30日參考)。
    臺灣證券交易所,http://www.twse.com.tw/ch/,(2016年4月30日參考)

    下載圖示 校內:2019-07-01公開
    校外:2019-08-01公開
    QR CODE