當經濟學家成為科技新貴(三):資料科學

計量經濟學資料科學實證

下星期一開始,正是經濟學家一年一度的盛會 AEA。為期四天的活動中,共計會有 13000 名經濟學家到此聚首。在此,除了可以會見各路大咖外,對於博士班準畢業學生來說,這四天,還是找工作的大日子。

為了方便職缺的媒合,AEA 一直以來都有提供一個平台讓學術機構/公司張貼職缺。金融業和顧問業聘請經濟學家是家常便飯,但近年來卻也能看到諸如 Airbnb、Amazon、Ebay、Facebook、Netflix、Microsoft、Uber 等科技公司在上面張貼徵才廣告的身影。到底,這些科技公司要經濟學家做什麼?

稍微研究一下這些徵才訊息,不難發現他們有一個共同的關鍵字:Data。的確,最近這波經濟學家進入在科技業對的風潮,也是借力了這波大數據的興起。然而,做數學比不過統計學家,寫程式贏不過電腦科學家,那為何又要特別招聘經濟學家呢?尤其,Microsoft 還在徵才廣告上特別註明了“應徵者必須有熱忱學習大數據分析”——明明市場不缺即戰力,為何又要特地找經濟學家來訓練呢?且讓我們繼續看下去。

計量經濟學 vs 機器學習 vs 統計學

為了理解在資料分析這件事,經濟學家到底有何魅力,我們得先講起計量經濟學、機器學習與統計學的差異。

計量經濟學,是一門以資料驗證經濟理論和探究現象的學門。在應用上,經常經濟學家手上有個不知是否為真的假說,希望能透過資料驗證。如:最低工資是否會提高失業率、 小班教學是否有益於提升成績等等。

而機器學習,則是近年來因為可取得的資料暴增,而相應蓬勃發展的一個領域,主要用於預測。典型的應用包括推薦系統( 如 Youtube 從瀏覽紀錄猜測使用者喜好 )、過濾垃圾信件等等。

換句話說,計量經濟學主要處理的是推論問題( 一個敘述是否為真 ),機器學習處理的則是預測問題。前者是要篩出變數之間因果關係,而後則是要窮盡變數之間的關聯性來進行預測。至於計量經濟學比起統計學,除了前者會納入經濟學模型外,也更在乎因果關係。1

計量經濟學的用途

以下讓我們舉幾個簡單的例子,來解釋什麼是機器學習不能,但計量經濟學可以做到的。

猜使用者會喜歡什麼影片,是機器學習擅長的預測問題;但推薦影片本身到底能增加多少觀看次數,則是計量經濟學在意的因果問題。

在 Uber 的商業模式中,我們可以把司機想成是供給方,而消費者則是需求方。在演唱會結束等這類需求暴增的時候,到底該收多少錢才能使得供需平衡呢?這類涉及經濟學模型的統計問題,自然是計量經濟學的主場。

有時做實驗可能成本很高,那公司在不能隨意做實驗的情況下,要怎麼得知新的政策會帶來什麼衝擊呢?這類反事實問題,在總體經濟學中經常以基於模型的數值模擬方法來分析,像是“如果開放自由貿易,GDP 會增加幾個百分點?”

此外,經濟學家在一個缺乏資料的環境中待久了,還培養出一個敏銳的嗅覺,能找出現有資料中,找出一個估計因果關係的手法。有興趣的讀者,可以參閱白經濟之前的文章《自然實驗:無法重製的人生/歷史》

講了這麼多計量經濟學的長處,但實務應用上,機器學習仍是無可取代。而擁有相關數學背景的經濟學家,即便未曾接觸過機器學習還是能快速上手,如邏輯迴歸就是離散選擇模型。機器學習經常使用的線性代數和機率,也是計量經濟學的必備數學工具。

有趣的是,經濟學家在科技公司不只是要分析資料,還要帶頭做實驗,這多半和最近經濟學家最近更常做實驗有關。有興趣的讀者,可以參閱白經濟的一篇書評《窮人經濟學—以科學精神檢驗失敗的扶貧政策》

那,經濟學家為何要進入科技業?

這三篇系列文講了這麼多科技公司為何要聘請經濟學家,那經濟學家為什麼又想進入科技業呢?

不可否認地,科技業的待遇相當誘人,並不比走學界當教授差。但近年來經濟學家與科技業的合作,當然不只是為錢,還是為了這些公司手上掌握的資料。這些資料,是許多經學家夢寐以求的寶庫。

比如說, Ebay 是探討拍賣理論最自然的環境,而 Facebook 則是擁有龐大的社群網絡資料。又如 Uber 的叫車資料,最近則是被用來估計消費者剩餘。而 Uber 的加成計費系統更是價格調節市場供需的最佳範例。

不只是提供資料,有些公司還相當鼓勵自己的研究人員投稿學術期刊,讓職涯不至於和學界脫軌,甚至還主動提供一個(大)平台,讓經濟學家能和公司裡的電腦科學家合作,從事前沿的學術研究。如 Microsoft Research Lab 在本月才啟動了一個名為 Alice 的新專案,目標是改良現有的機器學習方法,使其得以應用在測量因果關係。

結語

筆者身為一個經濟學宅宅,看到經濟學在新的領域有所發揮,是相當興奮的事情,代表又有新的工作機會了(喂)。筆者身為一個有志於學術的經濟學學徒,看到跨領域的合作,是非常興奮的。尤其最近火紅的機器學習熱潮,也逐近燒到經濟學的圈子。下次,我們來談談機器學習,在經濟學上有什麼應用。


註:

  1. 關於統計學、計量經濟學、機器學期這三者比較,以上的描述並不精確,也並不全面。計量經濟學不只是會探討因果關係(如時間序列分析中也有預測問題),而也有統計學是的文章是在處理因果關係的推論問題。而又如文末提到的 Alice 專案,則是以機器學習方法處理推論問題的一個例子。這三個都是非常大的領域,因此很難在一言兩語內分清楚。以上的這些分類參考就好,日後有機會,再以較大的篇幅專文介紹。

麻糬

麻糬

Q中帶軟,軟中帶Q,食用時小心噎到。