機器學習 vs 經濟學(下)

繼去年的這篇文章後,讓我們繼續談談機器學習1在經濟學的應用。上次提到,除了經濟學中的預測問題外 ,機器學習也可以用在資料搜集,像是以衛星雲圖衡量經濟發展。而這次的文章,將著重於機器學習在計量經濟學上的延伸,特別是在政策評量 (因果關係推論)2中的應用。

然而事情並不這麼簡單。雖然機器學習在許多領域都獲得了巨大成果,但在計量經濟學上卻沒太多突破。為何如此,且讓筆者逐一解釋。

四個差異

第一,兩者的功用不同:機器學習用於預測,而非衡量因果。為了預測,一個好的機器學習方法,是要盡可能地挖出變數之間的相關性。反之,因果推論的目標,則是要在「在其他條件不變之下」的前提下,從資料過濾出自變數與應變數之間的連動。假設薪資是研究中的應變數,一個好的預測模型會把年齡這個自變數挑出來,因為年齡與工作經驗高度相關,而豐富的工作經驗有助提升薪資,所以年齡可以用來預測薪資。但若是要回答「在其他條件 (包括工作經驗) 不變下,年紀大的是否薪水更高」的因果問題,則應該要能夠把年齡與工作經驗兩個因素拆開來。所以在從這角度上來看,兩套學門可說是背道而馳。

第二,在機器學習中,模型的好壞是可以直接從資料評估的;而在因果推論的問題中,通常只能藉由研究者 (主觀地) 依個別資料的適用性自主評估。怎麼說呢?首先,要知道一個預測模型的好壞很簡單:只要把一份資料切成兩半,只拿一半的資料訓練模型,另一半就可以拿來做測試,評估模型預測的準確度。然而,在因果推論中,由於是在估計一個看不見的效果 3,所以我們無法直接藉由比較模型估計值和實際值來評估模型的好壞,因為實際值 (即效果) 是看不到的。偏偏機器學習非常依賴這套從資料中作交叉驗證4的大絕招,所以這些演算法並不適用於因果關係估計。

此外,由於模型好壞無法從資料得知,所以因果關係的統計方法更需要理論的背書。一個新的機器學習方法就算沒有理論,只要實際在預測上表現傑出就足以證明其價值。但是一個新的政策評量方法,若不能建立其理論性質 (如統計上的大樣本性質),就很難證明它的實用價值。況且,沒有理論性質的方法,也無法用於統計推論(假設檢定)。這當然這不是說機器學習中理論不重要,而只是相對運算複雜度等其他現實考量,理論是次要的。而且因為需要有理論,所以因果推論的方法必須是在數學上可分析的,並不能夠太「天馬行空」。這也又多了一層限制。理論的輕重與否,是兩者之間的第三個關鍵差異。

最後,機器學習主重實用,能預測的模型就是好模型,但實際上是怎麼產生預測的就不是很重要。像是深度學習 (Deep learning) 和隨機森林 (Random forest) 雖然都是很強力的工具,但兩者都像是黑盒子一般,很難從中萃取出人類可以理解的知識 (你能從 Alpha Go 的類神經網路中參悟出神之一手嗎?)。經濟學家做資料分析,終究是為了從中歸納出不同變數之間的關係,以增進對現實社會運作的理解,所以模型是否容易詮釋就相當重要。然而,大部分的機器學習方法,為了能夠有彈性地抓取變數間的非線性關係,都太複雜了。可謂成也複雜,敗也複雜。

兩個例子

因為如上的差別,機器學習在計量經濟學的應用上,發展較為緩慢。比較著名的例子有兩個:一個是 Susan Athey, Guido Imbens 和 Stefan Wager 三人在隨機森林上的貢獻,另一個是 Alexandre Belloni, Victor Chernozhukov 和 Chris Hansen 在套索算法 (LASSO, least absolute shrinkage and selection operator) 上的改良。

前一組人馬修改了隨機森林的演算法,並應用在估計效果異質性 (Effect Heterogeneity) 的問題上;後一組人馬則是提出名為雙重選擇 (Double selection) 的手法,使得套索算法能應用在高維度資料中的因果關係估計。這兩組人馬不只是提出新方法,也各自證明了新方法的理論性質。經濟學之外,對因果關係推論也很有興趣的政治學同行們,最近也提出了不少基於機器學習的新統計方法。

結語

最後,攘我擷取四個 Susan Athey 在今年初所做的趨勢預測做為結尾。在未來,

  • 更多的機器學習方法被用於生成資料,再以傳統的計量經濟學方法進行分析;
  • 更多的機器學習被用在經濟學的預測問題;
  • 更多的經濟學家會在公司或政府當工程師,做更多的數位化實驗;
  • 更多基於機器學習的政策衡量方法,但不會有突破性的進展。

註:

  1. 本文中,「機器學習」指的都是監督式機器學習。

  2. 文中,政策評估 (program evaluation) 與因果關係推論 (causal inference) 兩字將交互使用。

  3. 若以上大學對收入的影響作為例子,效果指的是「上大學」與「與不上大學」之間收入的差別。由於一個人要不是上了大學就是沒上大學,我們看不到兩個狀態之間的差異。也就是說,這效果是看不見的。

  4. 也就是將樣本一切為二,藉此來比較不同模型的這個作法。

麻糬

麻糬

Q中帶軟,軟中帶Q,食用時小心噎到。