兩個變數之間有因果關係嗎_回歸_R語言
許多情況下,一組觀測值的取值很明顯是取決於另一組觀測值。
本次的案例中每個「個體」都有兩個觀測值。
一個觀測值是「原因變數」、「x 變數」、「預測變數」、「自變數」,
此變數的取值為實驗者的設定或選擇;
另一個觀測值是「效果變數」、「y 變數」、「應變數」,此變數的取值非實驗者設定。
有一系列方式可以判斷原因和效果之間的關係形式和強度,每個方法對變數及其關係的假定各有不同,
這裡考慮五種檢定: 線性回歸、Kendall 最佳配適線、羅吉斯回歸、第二型模式回歸和多項式回歸。
「標準」線性回歸
即第一型模式回歸,是生物學中常用的統計模式,也是最常被濫用的統計方法,因為常忽略它的假定。
線性回歸可判定兩個變數之間關係的形式和強度,很強大且有用。
如果想要用給定 x 值(自變數)來預測 y 值(應變數),就可運用。
此檢定是在判斷斜率是否為 0 (虛無假設 b=0),如果 p< 0.05 代表斜率和 0 有顯著差異,x 和 y 變數之間有關係。
線性回歸對資料有許多假定,包括 x 值沒有誤差;x 值是由實驗者選擇或指定; x 和 y 之間關係的最佳描述為一條直線 (y= bx); 不論 x 取值為何,y 的變異數均相等,以及不論 x 取值為何,y 均遵守常態分佈。
#Exmple: 研究實驗藥物的胃部吸收,試驗胃部的酸性程度是否會影響吸收。
|
|
輸出的截距為 X (pH)為 0 時 y (uptake)的取值 (11.12695),且和 0 有顯著差異。第二列給出關係的斜率 (0.19)和顯著性(0.000018)。這代表 pH 每增加 1,uptake 會增加 0.19,且此斜率和虛無假設的 0 有顯著差異。
R-squared 為 0.574,意謂反應變數(uptake)的變異數的 57%可被預測變數(pH)解釋。
|
|
|
|
第二型模式回歸 (Model II regression)
包含一系列分析。其所作的假定遠少於第一型模式回歸。
第一型最常出問題的假定是「x 值的測量無誤差」及「對於任何 x 值,y 值的變異數均相同」,若這些假定不為真,則需使用第二型模式回歸,可惜該統計處理還在實驗階段。
Bartlett 三組檢定法是個值得推薦的第二型模式回歸,此方法把資料依 x 值大小簡單分成三組,且最大和最小這兩組的觀測數需相同。把這兩組的 x 和 y 值平均值算出後,兩個平均點之間的斜率為欲求得之斜率。
上面提到的 Kendall 最佳配適線法也是第二型模式回歸。
多項式回歸、三次回歸和二次回歸
標準回歸的其中一個假定是「x 和 y 的關係為一條直線」,但若不適用時,應少器該假定並使用多項式回歸,可以使擬合度較佳,預測更精準,缺點是要增加參數的數目,隨著擬合線越複雜,其所解釋的關係在生物學上就越沒有信服力。但還是有些方法可以判斷否值得加入新的參數,AKI 把模型擬合的精準度和使用參數的個數一起納入考量,當有許多模型可供選擇時可以協助我們做決定。
參考來源: 生物統計學:如何選擇與應用