| 研究生: |
蘇詩偉 Su, Shih-Wei |
|---|---|
| 論文名稱: |
大量資料計算基本統計量之一個簡單程序 A Simple Computation Procedure Of Basic Statistics For Mass Data |
| 指導教授: |
劉應興
Liu, Ying-Hsing |
| 學位類別: |
碩士 Master |
| 系所名稱: |
管理學院 - 統計學系 Department of Statistics |
| 論文出版年: | 2002 |
| 畢業學年度: | 90 |
| 語文別: | 中文 |
| 論文頁數: | 60 |
| 中文關鍵詞: | 分組資料概念 、計算分位數 、計算動差 |
| 相關次數: | 點閱:42 下載:8 |
| 分享至: |
| 查詢本校圖書館目錄 查詢臺灣博碩士論文知識加值系統 勘誤回報 |
本文主要探討的問題是在於如何計算龐大資料中的分位數和其前四階動差。對於大量資料基本統計量的計算問題,有人提出的作法是把原始資料分成數段,分批讀入電腦中後做估計,最後再把各段的估計值做整合,這樣即使是再多的資料量也可以被分批地分析處理了。然而,這樣子的處理是否會形成兩次誤差的產生。再說,這種方式在電腦的計算程序上也顯得比較耗時。要如何才能簡化在電腦上的計算次數,同時也不失其準確度地計算龐大資料集之動差和分位數。本文試著提出了一個簡單的方法,即利用初等統計學所學的分組資料概念,再配合四次多項式曲線來近似資料的分位數;同時利用分組資料的概念來計算動差也有不錯的效果。本文的方法不但在想法上相當直接易懂,而且在計算程序上也簡化許多,在執行效能上只需將資料讀取一遍即可(single pass),因此在執行時間上的表現也不會太差。而且在電腦中也不需要太多的暫存記憶體空間。在估計連續型資料的準確度表現上,本文的方法和前人方法(二階法)比較起來也有不錯的表現。另外,本文也提供了一個Fortran 90的程式,可供作為計算大量資料集之分位數及前四階動差。
[1]. 林共進、林億雄(2001),“龐大資料集的統計推論方法”,成功大學統計學報, 第二十四期,68-84。
[2]. 馬瀰嘉、蘇佩芳、林共進(2001),“資料探勘-超大型資料庫基本統計量的計量”,成功大學統計學報,第二十四期,85-99。
[3]. 彭國倫(1997),Fortran 90 程序設計,碁峰資訊。
[4]. 黃國瑜、葉乃菁(2001),資料結構,文魁資訊。
[5]. Chao, M. T. and Lin, G. D.(1993).“The asymptotic distributions of the remedians”, Journal of StatisticalPlanning and Inference, 37, 1-11.
[6]. Hurley, C. and Modarres, R.(1995). “Low-storage quantile estimation”, Computational Statistics, 10, 311-325.
[7]. Knuth, Donald E.(1980). The Art of Computer Programming, Vol. 3, 台北圖書公司(Addison-Wesley授權)。
[8]. Rousseeuw, P. J. and Bassett, G. W., Jr.(1990). “The remedian:a robust averaging method for larger data sets”, Journal of the American Statistical Association, 85, 97-104.
[9]. Serfling, Robert J.(1984). Approximation Theorems of Mathematical Statistics, New York:Wiley。