資料探索的檢定_主成分分析, 多變量變異數分析, 集群分析_R語言
資料型態: 幾乎任何資料都可以拿來做資料探索,實務上,當變數數目跟觀測數都夠多時,資料探索的用處比較大。資料探索的目的為處理觀測值之間的交互關係,並將期間模式凸顯給實驗者。
主成分分析和因素分析 (Principle component analysis (PCA) and factor analysis)
都是藉由加權變數來將每個個體的差異最大化。許多方面,主成分分析跟相關係數和回歸分析很類似。只要資料中每個個體都有兩個以上的觀測值就可使用。主成分分析假第資料是連續的且遵從常態分佈。若執行此分析的目的是為了建立新假設就可以忽略此假定。
視覺化:
藉由「每個個體指有兩個觀測值」的特例將主成分分析的運作視覺化。想像將兩個相關的變數製成散佈圖,其資料形成橢圓形雲狀物。PCA會計算通過此橢圓形長軸的直線,並將此直線當成第一個主要軸線(PCA1)。通過資料雲,且和第一個軸線垂直的直線就是PCA2。分析過程是電腦以多維空間的形式進行,每個變數都代表一個維度,每條通過資料雲的直線都來自對於個變數做適當的加權。
PCA主成分分析原理及分析實踐詳細介紹 (很詳盡的介紹,也有R的演示)
Example: 研究兩種果蠅物種,觀察資料包含五種型態的單位、性別和物種別。
|
|
典型變量分析 (Canonical variate analysis):
與PCA的運作模式大致相同,執行該分析前必須把所有個體分組。其算出的變相權重是極大化的各組差異,而非PCA的個體差異。其產生的變數權重可以判斷哪些變數差異最大,那些無差異。進行本分析時盡量使用有現實意義的分組而非人為分組。
區別函數分析 (Discriminant function analysis):
和典型變量分析一樣需先將個體分組。該分析的想法是先計算出能夠分辨各組的權重,並把這組權重套用到尚未被分組的個體,以求得這些個體屬於個別組的機率。
多變量變異數分析 (Multivariate analysis of variance) (MANOVA)
多變量共變數分析 (Multivariate analysis of covariance) (MANCOVA):
如果有大於一個觀測項目,一個以上分組方法,且已經有另一個變數會影響觀測項目,則可以使用該分析移除干擾變數。
集群分析 (Cluster analysis):
一群個體分類法的統稱。隨著對DNA序列分析對統計的需求越來越精細,這些方法也越來越重要。集群分析可以畫出樹狀圖親緣關係,藉以顯示可能的親緣關係,或至少把各個體分成數個可能有分類學意義的組別。集群分析應用範圍不只限於分子序列分析。除了分類學領域也可以應用於集群生態學,近年來更成為研究基因表現和基因家族的關鍵方法。
最單純的集群分析可視為一種按部就班的迴圈過程。先將
- 各個體資料轉化為散佈的資料點
- 找尋最相近的兩個個體,將其相似度紀錄為兩點的距離
- 將這兩點合併成一點,位置取在兩點正中間
- 再去找最近的兩點合併,不斷重複直到剩下一個點。
|
|
降趨勢對應分析(DECORANA)和雙向指標物種分析 (TWINSPAN):
為當今族群的物種豐富度資料分析和生態資料的分析均廣為使用本方法 目前尚未更新,似乎需要在3.5.0版本才能使用
參考來源: 生物統計學:如何選擇與應用