相關不是因果，顯著也非不獨立：談迴歸的誤區

這是個量化與實證的年代。經濟學自然不必說，社會學和政治學兩大學門近年來也更注重資料分析。若是平時也有在閱讀友站菜市場政治學和巷仔口社會學的讀者們，大概也能看出些端倪。像是最近的這篇足球爆冷門？補記世界排名的政治經濟學和這篇血汗經濟崩世代──直面台灣青年過勞死的真相，作者都使用了資料來加強自己的論證。其中，迴歸分析更是經常被用來分析兩個變量之間的關係，如「服務業比例提高是否造成職災總數上升」。

在統計軟體的幫助之下，迴歸分析也不過是數行指令便能完成的事。然而，要能準確詮釋迴歸分析的結果，仍需要紮實的統計基礎，否則容易淪為作者一廂情願。倘若如此，統計報表也不過是如花瓶般的存在，使得文章看起來有憑有據，實則漏洞百出。另一方面，讀者也應當具備一定的統計常識，才能具有獨立思考的本錢。今天，且讓我介紹兩個迴歸分析上兩個常見的誤區：「相關不是因果」以及「顯著也非不獨立」。

顯著也非不獨立

第二個迴歸分析上的誤區，則是「顯著不代表不獨立」。事實上，若拿兩個相互獨立的隨機漫步相互迴歸，其 t 值將會趨近無限大！換句話說，即便這兩個變數根本毫無關聯，迴歸係數會也會非常顯著。互為獨立的兩個變數卻在迴歸中顯著的這一現象，經濟學家通稱為假性迴歸 (Spurious Regression)。除了係數會非常顯著，另一個「病徵」則是 \( R^2\) 會不尋常地大，趨近其理論上界 1。然而這些顯著的結果，卻都是假的！此類問題最常見於時間序列（如 GDP）的統計分析。在 1974 年 Granger 和 Newbold 的一篇文章後，經濟學家已經漸漸知道，進行時間序列分析前，需適當地先取一階差分 (first order difference) 或去除趨勢 (detrend)，否則迴歸分析出來的結果將會是「垃圾進，垃圾出」。

這也提醒了我們，在使用統計方法前，必須熟悉統計方法背後的假設。像是學界主流的統計軟體在進行迴歸分析時，通常是預設了資料來自隨機樣本，假設不同的觀察值應為獨立，並以此為依據計算係數是否顯著。可是，時間序列的資料通常是前後相關的（如今天下雨，明天下雨的機率則比較高）。硬是套用只適用隨機樣本的公式，顯然是錯誤的。

結語

隨著統計方法的盛行和資料的普及，市面也越常出現配備有統計資料的文章了。資料一方面補足了理論，也使得文章更有說服力。然而，讀者們也必須以統計知識武裝自己，才不會輕易地被統計的花言巧語給騙了。：