COVID-19 經濟分析:趕進度的研究有風險嗎?

COVID-19研究重製

隨著疫情延燒,學術界的研究如雨後春筍蓬勃蔓生,先前的〈COVID-19 對經濟的影響分析(一)〉也做了很好的總結。從流行病學的基礎出發,前述諸多研究也顯示經濟學家對這議題的興趣。畢竟傳染就是人與人之間的互動在分享病毒,而「互動」本身就是經濟行為的基礎。

然而經濟學研究費時動輒數年(之前我們也介紹過花了十年才成功刊登的神作);雖然疫情當前,為了瞭解疫情對大眾生活的衝擊以及經濟上該如何應對,社會對研究成果需求迫切。但數年的時間壓縮到數個月,有些熬出細活所需的慢工可能就被犧牲了。MIT 商學院與聯準會的幾位經濟學家,最近就成了趕進度而出包的倒楣鬼。

保持社交距離可以拚經濟嗎?

美國聯準會的經濟學家 Sergio Correia、Stephan Luck、以及 MIT 商學院的 Emil Verner,在三月底發表了一篇論文的草稿 (working paper),研究 1918 年西班牙流感期間美國城市的經濟發展。除了疫情對經濟的負面影響之外,這篇文章的重點是關閉公共場所、禁止公共集會、隔離患者……等等「非藥物措施 (non-pharmaceutical interventions)」,對疫情後續的經濟發展有何影響。三位經濟學家使用一種稱為「差異中差異法」的技巧,比較 43 個城市的非藥物措施的嚴格程度、以及疫情爆發與頒布措施間拖延的時間。結論是在措施較為嚴格、或是反應較為迅速的城市,疫情結束後幾年的經濟會較為活絡。在美國正為了各州是否要解除商家營業禁令爭執的此刻,這個結論被作為「不解封才可以拚經濟」的證據,獲得廣泛的轉載,短短一個月在上傳的平台 SSRN 獲得六萬餘下載次數,穩居全平台第三名

使用「差異中差異法」這一類的計量經濟學方法,目的就是在疫情與經濟活動表面的相關性之上,進一步推論因果關係。以計量經濟學的方法推論因果關係,往往需要一些基礎假設。在這方法中在這方法中,關鍵的假設之一是措施嚴格程度不一的城市,在疫情開始前必須有相似經濟活動趨勢。如果防疫措施比較嚴格的城市在疫情開始前經濟本來就比較活絡,而疫情可能只是暫時打斷經濟活動、並不影響整體趨勢,那麼在疫情結束後看到防疫比較嚴格的城市經濟狀態比較好,反映的就只是兩種城市在碰上流感之前就有的差距。這篇研究為了排除這種可能,使用從流感爆發的 1918 年回溯至 1909 年的製造業與銀行業資料。在 1909 年的資料中,他們的統計方法也的確沒有抓出防疫嚴格程度和原本的經濟趨勢有什麼系統性的關聯。

這篇文章草稿在三月底上傳。五月初的時候,三名哈佛大學的博士生 Andrew Lilley、Matthew Lilley、以及 Gianluca Rinaldi 上傳了另一篇論文草稿。他們發現如果將原始論文的資料從 1909 向前追溯至 1899,就能看到防疫反應比較迅速的城市,製造業在疫情爆發前成長的趨勢,高於防疫措施開始得比較晚的城市。如果在模型中控制這個在原本的論文中沒有找到的趨勢,防疫較為嚴格的城市在疫情後的經濟變化,相較於其他城市就不再有統計上顯著的優勢。

圖 1:兩篇論文各年度非藥物措施的影響之信賴區間比較。
來源:Lilley, Lilley, and Rinaldi (2020)。


這結論代表的,是我們再也無法從 1918 年的這個案例中,排除前面假想的情境:防疫比較嚴格的城市在疫情後經濟表現好,可能只是因為它們在疫情前經濟成長就比較快。這不代表關閉公共場所、禁止公共集會、隔離患者等措施對經濟沒有幫助,但也顯示我們很難從這歷史事件中得出「有幫助」的結論。

問題怎麼出現的?

一開始稱呼原本論文的三位作者為倒楣鬼,是因為他們並沒有明顯的失誤。問題的來源不是資料出錯、該跑的統計檢定沒跑、程式碼寫了個 bug 等常見的問題。那他們是怎麼犯下這樣的錯誤呢?

這種分析有個關鍵的前提:比較對象之間在疫情開始前的經濟活動必須有相同的趨勢。實際操作的時候,這個前提會透過檢驗兩組城市的趨勢是否有統計上顯著的差距。原本的論文這個該跑的檢定有跑,檢定結果也是趨勢沒有顯著差距。然而他們沒有注意到,他們的檢定雖然過了,但在這組資料下這個檢定其實能鑑別的趨勢非常有限:除非原本的差別很大,不然他們跑的檢定很難正確的抓出顯著的差距。1

稍微熟悉學術圈生態一點的人可能會認為這是公開論文草稿,文章未經同儕審查的結果。然而公開草稿在經濟學界與不少其他領域已行之有年,而且透過公開草稿,同時提供對資料還有統計方法透明、完整的敘述,才讓其他人有重製並發現文章問題的機會。實際上拿去審查得到的意見,可能也不會是要求作者提供更早年分的資料:畢竟一百年前的事情,很有可能根本沒什麼資料可以挖,要求作者提供更早的資料有時並不合理。2

所以我們該怎麼辦?

這個經濟學家內部過去幾天的一場討論,算是個憂喜參半的發展。喜的是經濟學公開統計方法細節和資料來源的習慣,讓其他同行可以在兩個月不到的時間內便重製原始文章並發掘問題。在有些領域,公開資料和統計模型設定的習慣還不是常態,要重製文章就會困難許多。憂的是疫情當下,大眾更容易接觸到還不成熟的研究結論,進一步影響眼前的政策討論。最明顯的例子,就是美國直到三月底仍在引用專家說法,建議一般大眾不要戴口罩。此外,學者在做研究的時候也需要非常謹慎,才能避免見獵心喜而忽略潛在的警訊。然而趕時間,加上見獵心喜的心態,可能就是疫情為學術界帶來的獨特考驗。

一般大眾作為研究成果的最終消費者,並不具備判別研究是否可信的基礎,又該怎麼自保呢?白宮經濟顧問委員會的前主席 Jason Furman 在推特上討論這個案例時,提出的建議是我們在讀到新研究的時候新研究的時候,不要急著根據新的研究結論修正我們自己的判斷,特別是當這結論符合我們自己的預期的時候


後續討論:2020.05.15 更新

在 5 月 15 日一場由 MIT 經濟學家 Ivan Werning 主持的線上研討會中,三個研究 1918 年流感疫情的團隊先後呈現目前的成果,其中包括 Verner 一行人。Werning 更邀請重製研究的團隊也簡短呈現他們的批評。

重製的團隊由 Andrew Lilley 代表,他們呈現的結果有兩個主要的重點:

  1. 在 1918 年樣本的城市中,1918 年前的人口成長與後續的製造業雇用人數有明顯的相關性,代表原始論文的結論可能摻雜了人口成長的影響。
  2. 人口與就業人數的資料在這段期間有些變化來自行政管理,而非自然的演進。例如內部拉斯加州的南奧馬哈市,就在這幾年間被併入奧馬哈市。

原始論文的作者對他們的回應大致分為兩點:

  1. 不同資料的編制標準也不同,重製的文章使用的資料有許多無法直接與原始論文對照之處。例如這段期間的人口資料多為估算,事後的資料也顯示這些估算在各個城市有程度不一的誤差。因此這些資料不見得適合納入比較。
  2. 重製的文章最主要的攻擊在於疫情爆發前原有的趨勢。在 20 世紀初期,美國西岸的城市成長特別迅速,而這些也是疫情開始後防疫最嚴格的地區。如果將比較期間拉得較長,比較基準就會離流感爆發的時間更遠,自然無可避免地受西岸成長幅度的影響,因此事前趨勢的比較要使用多久以前的資料見仁見智。另外,如果在模型中納入重製團隊特別強調的人口成長趨勢,那麼還是可以看到其實在疫情開始前九年的期間,經濟活動沒有什麼明顯的差距。

當天的討論氣氛相當的就事論事,特別是 Verner 的回應非常的謙和有禮,主持人也稱讚雙方的表現十分文明 (civil)。錯過的讀者可以參考雙方攻防的論文。重製團隊的評論都在原本的網站,原始論文團隊的回應也可以從作者的網站上下載。

參考文獻

  • Correia, S., S. Luck, and E. Verner (2020), “Pandemics Depress the Economy, Public Health Interventions Do Not: Evidence from the 1918 Flu,” Working Paper. [link]
  • Lilley, A., M. Lilley, and G. Rinaldi (2020), “Public Health Interventions and Economic Growth: Revisiting The Spanish Flu Evidence,” Working Paper. [link]

  1. 更詳細的說明可以參考這則推特。統計學中這個概念稱之為檢定力 (power)。關於統計學中假設檢定的觀念,歡迎參考白經濟舊作〈統計術語小教室:你說的是真的嗎?〉。

  2. 要看其他學者給這篇研究的意見可能會長什麼樣子,可以參考統計學家 Andrew Gelman 部落格的這篇文章


首圖為 Correia, Luck, and Verner (2020) 論文在美國 5 月 12 日下午為止 Twitter 流量的 PlumX 分析。

呱牛

呱牛

他撐著一根姑婆芋,走在龜裂的黑路,回到檜木林的家。撥開遮洞的蕨葉,嗅一嗅洞口,仍然只有自己的氣味。掛上包裹,勉強地排便、磨牙。呵了口氣,天亮中睡去。雨繼續在夢裏在森林裏落著。 - - " 小鼯鼠的看法 ",劉克襄