相關不是因果,顯著也非不獨立:談迴歸的誤區

計量經濟學研究方法

這是個量化與實證的年代。經濟學自然不必說,社會學和政治學兩大學門近年來也更注重資料分析。若是平時也有在閱讀友站菜市場政治學巷仔口社會學的讀者們,大概也能看出些端倪。像是最近的這篇足球爆冷門?補記世界排名的政治經濟學 和這篇血汗經濟崩世代──直面台灣青年過勞死的真相,作者都使用了資料來加強自己的論證。其中,迴歸分析更是經常被用來分析兩個變量之間的關係,如「服務業比例提高是否造成職災總數上升」。

在統計軟體的幫助之下,迴歸分析也不過是數行指令便能完成的事。然而,要能準確詮釋迴歸分析的結果,仍需要紮實的統計基礎,否則容易淪為作者一廂情願。倘若如此,統計報表也不過是如花瓶般的存在,使得文章看起來有憑有據,實則漏洞百出。另一方面,讀者也應當具備一定的統計常識,才能具有獨立思考的本錢。今天,且讓我介紹兩個迴歸分析上兩個常見的誤區:「相關不是因果」以及「顯著也非不獨立」。

相關不是因果

其中這第一點,想必白經濟的讀者已經是聽到耳朵長繭了。「相關不是因果」,是本站作者群們不斷在強調的基本原則。這道理簡單明瞭,是任何做實證分析的人必須知道的第一堂課。違背這原則的方式很多種,常見的一種就是把兩條時間序列資料畫在同一張圖上,看圖說故事。若是兩者看似亦步亦趨,便宣稱兩者互為因果,反之亦然。另外一種同樣常見且類似的錯誤,便是在迴歸分析中,以為統計顯著的 X 變數,就代表該變數與 Y 變數互為因果關係。

事實上,在沒有其他假設下(如在隨機控制實驗中,X 變數為隨機指派),迴歸分析的係數最多只是反映了兩遍數間的相關性。根據「相關不是因果」的鐵律,迴歸係數自然不能與因果關係劃上等號。這是常識,但不少文章在行文間仍不經意地使用因果的語言描述統計結果,諸如「造成」、「影響」、「導致」、「增加」等等字詞,雖不提「因果」二字,實為因果。在缺乏充足的理由下,作者應戒慎恐懼,在詮釋迴歸係數時避免使用這些語彙,否則便是讓一己的立場凌駕於資料上,也就失去當初使用資料來佐證自己論點的初衷了。

顯著也非不獨立

第二個迴歸分析上的誤區,則是「顯著不代表不獨立」。事實上,若拿兩個相互獨立的隨機漫步相互迴歸,其 t 值將會趨近無限大!換句話說,即便這兩個變數根本毫無關聯,迴歸係數會也會非常顯著。互為獨立的兩個變數卻在迴歸中顯著的這一現象,經濟學家通稱為假性迴歸 (Spurious Regression)。除了係數會非常顯著,另一個「病徵」則是 \( R^2\) 會不尋常地大,趨近其理論上界 1。然而這些顯著的結果,卻都是假的!此類問題最常見於時間序列(如 GDP)的統計分析。在 1974 年 Granger 和 Newbold 的一篇文章後,經濟學家已經漸漸知道,進行時間序列分析前,需適當地先取一階差分 (first order difference) 或去除趨勢 (detrend),否則迴歸分析出來的結果將會是 「垃圾進,垃圾出」。

這也提醒了我們,在使用統計方法前,必須熟悉統計方法背後的假設。像是學界主流的統計軟體在進行迴歸分析時,通常是預設了資料來自隨機樣本,假設不同的觀察值應為獨立,並以此為依據計算係數是否顯著。可是,時間序列的資料通常是前後相關的(如今天下雨,明天下雨的機率則比較高)。硬是套用只適用隨機樣本的公式,顯然是錯誤的。

結語

隨著統計方法的盛行和資料的普及,市面也越常出現配備有統計資料的文章了。資料一方面補足了理論,也使得文章更有說服力。然而,讀者們也必須以統計知識武裝自己,才不會輕易地被統計的花言巧語給騙了。:

麻糬

麻糬

Q中帶軟,軟中帶Q,食用時小心噎到。