機器學習 vs 經濟學（下）

繼去年的這篇文章後，讓我們繼續談談機器學習¹在經濟學的應用。上次提到，除了經濟學中的預測問題外，機器學習也可以用在資料搜集，像是以衛星雲圖衡量經濟發展。而這次的文章，將著重於機器學習在計量經濟學上的延伸，特別是在政策評量 (因果關係推論)²中的應用。

然而事情並不這麼簡單。雖然機器學習在許多領域都獲得了巨大成果，但在計量經濟學上卻沒太多突破。為何如此，且讓筆者逐一解釋。

四個差異

第一，兩者的功用不同：機器學習用於預測，而非衡量因果。為了預測，一個好的機器學習方法，是要盡可能地挖出變數之間的相關性。反之，因果推論的目標，則是要在「在其他條件不變之下」的前提下，從資料過濾出自變數與應變數之間的連動。假設薪資是研究中的應變數，一個好的預測模型會把年齡這個自變數挑出來，因為年齡與工作經驗高度相關，而豐富的工作經驗有助提升薪資，所以年齡可以用來預測薪資。但若是要回答「在其他條件 (包括工作經驗) 不變下，年紀大的是否薪水更高」的因果問題，則應該要能夠把年齡與工作經驗兩個因素拆開來。所以在從這角度上來看，兩套學門可說是背道而馳。

第二，在機器學習中，模型的好壞是可以直接從資料評估的；而在因果推論的問題中，通常只能藉由研究者 (主觀地) 依個別資料的適用性自主評估。怎麼說呢？首先，要知道一個預測模型的好壞很簡單：只要把一份資料切成兩半，只拿一半的資料訓練模型，另一半就可以拿來做測試，評估模型預測的準確度。然而，在因果推論中，由於是在估計一個看不見的效果 ³，所以我們無法直接藉由比較模型估計值和實際值來評估模型的好壞，因為實際值 (即效果) 是看不到的。偏偏機器學習非常依賴這套從資料中作交叉驗證⁴的大絕招，所以這些演算法並不適用於因果關係估計。

此外，由於模型好壞無法從資料得知，所以因果關係的統計方法更需要理論的背書。一個新的機器學習方法就算沒有理論，只要實際在預測上表現傑出就足以證明其價值。但是一個新的政策評量方法，若不能建立其理論性質 (如統計上的大樣本性質)，就很難證明它的實用價值。況且，沒有理論性質的方法，也無法用於統計推論（假設檢定）。這當然這不是說機器學習中理論不重要，而只是相對運算複雜度等其他現實考量，理論是次要的。而且因為需要有理論，所以因果推論的方法必須是在數學上可分析的，並不能夠太「天馬行空」。這也又多了一層限制。理論的輕重與否，是兩者之間的第三個關鍵差異。

最後，機器學習主重實用，能預測的模型就是好模型，但實際上是怎麼產生預測的就不是很重要。像是深度學習 (Deep learning) 和隨機森林 (Random forest) 雖然都是很強力的工具，但兩者都像是黑盒子一般，很難從中萃取出人類可以理解的知識 (你能從 Alpha Go 的類神經網路中參悟出神之一手嗎？)。經濟學家做資料分析，終究是為了從中歸納出不同變數之間的關係，以增進對現實社會運作的理解，所以模型是否容易詮釋就相當重要。然而，大部分的機器學習方法，為了能夠有彈性地抓取變數間的非線性關係，都太複雜了。可謂成也複雜，敗也複雜。

兩個例子

因為如上的差別，機器學習在計量經濟學的應用上，發展較為緩慢。比較著名的例子有兩個：一個是 Susan Athey, Guido Imbens 和 Stefan Wager 三人在隨機森林上的貢獻，另一個是 Alexandre Belloni, Victor Chernozhukov 和 Chris Hansen 在套索算法 (LASSO, least absolute shrinkage and selection operator) 上的改良。

前一組人馬修改了隨機森林的演算法，並應用在估計效果異質性 (Effect Heterogeneity) 的問題上；後一組人馬則是提出名為雙重選擇 (Double selection) 的手法，使得套索算法能應用在高維度資料中的因果關係估計。這兩組人馬不只是提出新方法，也各自證明了新方法的理論性質。經濟學之外，對因果關係推論也很有興趣的政治學同行們，最近也提出了不少基於機器學習的新統計方法。

結語

最後，攘我擷取四個 Susan Athey 在今年初所做的趨勢預測做為結尾。在未來，

更多的機器學習方法被用於生成資料，再以傳統的計量經濟學方法進行分析；
更多的機器學習被用在經濟學的預測問題；
更多的經濟學家會在公司或政府當工程師，做更多的數位化實驗；
更多基於機器學習的政策衡量方法，但不會有突破性的進展。

本文中，「機器學習」指的都是監督式機器學習。 ↩︎
文中，政策評估 (program evaluation) 與因果關係推論 (causal inference) 兩字將交互使用。 ↩︎
若以上大學對收入的影響作為例子，效果指的是「上大學」與「與不上大學」之間收入的差別。由於一個人要不是上了大學就是沒上大學，我們看不到兩個狀態之間的差異。也就是說，這效果是看不見的。 ↩︎
也就是將樣本一切為二，藉此來比較不同模型的這個作法。 ↩︎