社會科學能重製嗎?那些失敗的實驗教我的事

研究方法實驗經濟學現場實驗

余憶童稚時,做國中物理滑車實驗,量打點紙間的距離,填到表格裡算加速度,怎麼算都有點差。最後老師還是打了個大叉叉,因為一定是我實驗沒做好,而不會是牛頓搞錯了。接續之前〈伊可納米的實驗室〉所談的實驗方法,這些實驗真的有可能再次被做出來嗎?


重製性

自科學革命以來,具不具有重製性 (replicability) 似乎是個廣為人所接受,評估一個科學實驗可不可信的條件。我們相信,不管做實驗的人是誰,在盡力模仿出的類似環境下(但到底怎麼樣才算夠類似?),理應要得出相同結果,才算是一個成功的實驗,該實驗的結論也才有效。近幾期的 Science 正好不約而同刊登了幾個不同領域社會科學在重製上的問題,底下我們稍做介紹與討論。


心理學實驗面臨無法被重製的危機?

2015 年 8 月,由 270 個科學家組成的 Open Science Collaboration (OSC) 團隊在 Science 發表了一篇文章,指出許多心理學實驗很難重製出類似結果。他們從幾個重要期刊中隨機抽出 100 個實驗來重做,發現只有 36% 的實驗能重製出統計上顯著不為 0 的結果(原始實驗有 97% 的結果顯著不為 0)。只有 47% 的原實驗結果會落在重製實驗的 95% 信賴區間裡。有人視這個結果為心理學的重製危機,甚至在 Science 官網上被(廣大的自然科學讀者?)票選為 2015 年科學十大突破之一。

名詞小百科

  • 我們常常想知道一個變數是不是 0(如多受教育,會不會增加我的薪水?),顯著不為 0 表示我們可以在若干錯判的機率下,拒絕這個變數是 0 的假設。
  • 95% 信賴區間表示我們有 95% 的信心相信,我們感興趣的某個變數(如我下個月的薪水),他的真實值會被包含在這個區間裡(如 [22K-1, 22K+1])。

圖 1:心理學實驗有重製危機?
橫軸與縱軸分別為原實驗與重製實驗的估計值,藍色代表兩者都顯著異於 0 的實驗。如果重製實驗與原實驗的結果接近,則點應該很靠近對角線。取自 Open Science Collaboration (2015)

但是在 2016 年 3 月,由包含哈佛大學心理系 Daniel Gilbert 與政府系 Gary King 在內的幾個政治與心理學者在最新的 Science 上評論指出,前述的重製在估計的方法上有誤。主要的想法是重製實驗和原實驗是抽自不同母體的樣本,這時會產生抽樣誤差,但傳統信賴區間裡所使用的標準誤並沒有考慮到這部分,造成重製的實驗可能本來就比較容易落到信賴區間之外,偏向被定義為重製失敗的那一邊去。

這裡我們可以看出重製社會科學實驗第一個具有挑戰性的地方:我們幾乎不可能找到兩群組成非常類似的人;但只要找到重量一樣的砝碼、校正滑車,我們幾乎就可以避免相同的抽樣誤差。

名詞小百科

  • 標準誤是我們對於一個估計的離散程度的估計。如果我們低估了他的值,便會產生比較窄的信賴區間,造成真實的值比較容易不被包含在區間之內。

此外,OSC 的重製實驗在設計上也與原實驗有諸多不同,例如:用義大利人取代美國人、用電子郵件取代一般信件、用想像度蜜月的正向效果來取代想像服兵役的負向效果等等。 Gilbert 等人認為,這會使得 OSC 的重製實驗在抽樣之外有了更多可能的偏誤來源。

這裡似乎也點出了社會科學實驗的另一個難題:到底我們該如何理解這些實驗的結果?我們能做多少延伸出該特定實驗設計、實驗環境與受試者之外的詮釋呢?


由於 OSC 的每個實驗只會對原實驗重製一次,Gilbert 等人便利用另外一組會對原實驗進行多次重製的重製實驗,來間接估計這些母體不同、實驗過程不同等等所造成的誤差可能會有多大。根據他們的估計,單單是這些偏誤就會造成只有 66% 的重製結果有可能落在原實驗的信賴區間裡;亦即在這樣的重製設計下,本來就該有至少 34% 的重製會受抽樣誤差影響,而可以被定義為重製失敗,並不是這些實驗真的無法被重製。因此,他們認為這並不表示心理學面臨了重製危機。

與此同時, Science 也刊出 OSC 對 Gilbert 等人評論的回應,說他們使用的統計方式也不夠好,過度樂觀了。但似乎 OSC 也不否認,我們不該過度詮釋原本的重製究竟有或沒有隱含心理學面臨了無法被重製的危機。

另外,也有統計學家認為,與上述 Gilbert 等批評的概念類似,我們應該將原實驗與重製實驗兩者的抽樣誤差納入,來建構預測區間 (prediction interval) ,因為這畢竟與傳統的信賴區間不同,是對於原有樣本之外的推論。他們據此估計,大約有 77% 的 OSC 重製結果會落在原實驗的預測區間裡。這樣的結果似乎比原本的合理一些。

圖 2:預測區間示意圖
橫軸與縱軸分別為原實驗與重製實驗的估計值,灰點表示重製結果落在預測區間範圍內,越接近對角線表示原實驗與重製實驗的結果越接近。取自 Leek 等 (2015)

經濟學實驗又有多少能被重製?

另一方面,同一個月的 Science 也刊出由加州理工學院 Colin Camerer 領軍的一群實驗經濟學家的研究。他們重製了 18 個在兩本經濟學最重要期刊上的實驗,發現 61% 的重製實驗結果與原實驗結果正負號同方向、 67% 的原實驗結果會落在重製實驗的 95% 信賴區間裡、 83% 的重製實驗結果會落在原實驗的 95% 預測區間裡(如前述,考慮了抽樣誤差)。整體而言,似乎較 OSC 對心理學實驗重製的評估樂觀一些,但這也僅僅是考慮 18 個兩本頂級期刊上實驗的結果。

讀到這邊,讀者應該也會同意,連到底怎麼樣才算是成功重製了一個實驗,都不是很簡單可以用一個標準衡量的。更何況,在標題殺人當道下,也許 60% 重製成功跟 40% 重製失敗對一個閱聽人產生的印象可能也是很不同的。

圖 3:18 個經濟學實驗的重製情形
將各組實驗裡原實驗估計的結果標準化為 1。 A 側各線段為重製實驗的估計值與 95% 信賴區間,B 側則將原實驗與重製實驗合併。當每個實驗所代表的線段有越多比例落在 0 與 1 間的虛線區域內,應該可以說重製越成功。取自 Camerer 等 (2016)

另外,比較有趣的是,Camerer 等還嘗試評估人是不是能單純看原實驗的設計與結果,就能正確預期一個實驗能不能被重製成功。於是在實驗被重製之前,找來一些同行,建立了一個預測市場,讓他們交易一些商品,這些商品的價值是由事後該實驗能否被重製決定的。他們同時也利用問卷問這些同行主觀上認為這些實驗能否成功重製。

結果他們發現,與重製的結果相較,這些人平均而言比真實的情況更樂觀(預測市場與問卷調查分別認為 75% 與 71% 的實驗能重製成功,而實際上是 61%),但兩者的差別並不顯著。此外,各實驗裡這兩者的數值也都與該實驗是否較成功被重製呈現正相關,但是預測市場的正相關並沒有顯著異於 0。

圖 4:預測市場與問卷調查對實驗重製的預期
橫軸為預測市場的期望,縱軸為問卷調查的期望,越靠近對角線表示兩這兩個方法對能否重製的評估越接近。藍點表示重製結果與原實驗結果顯著同向。取自 Camerer 等 (2016)

一組關於消除歧視的政治學實驗

2016 年 4 月的 Science 又刊出了一個政治學現場實驗的重製。原本在 2014 年 Science 刊出了一篇由 UCLA 博士生 Michael LaCour 主導的研究,指出只要透過長約 20 分鐘的深度遊說(Deep Canvassing,透過讓受訪者深談他的想法、讓他進入被歧視者的情境裡,而非直接嘗試說服他)就可以顯著減少對同性戀者的歧視。更讓人意外的是,他宣稱只有同性戀的遊說者能對受訪者的態度產生長期而持續的效果,並持續至少 9 個月,異性戀的遊說者則沒有這種持續的效果。他把這樣的效果詮釋為跨族群間接觸(intergroup contact)所獨有的。


洛杉磯 LGBT 中心 Leadership Lab 在深度遊說對於跨性別者的非歧視法案

當時柏克萊的博士生 David Broockman 抱著敬佩的心情,想嘗試重製這個實驗,並把主題換成對跨性別者的歧視,但他馬上發覺不對勁:後續的回應率低的可憐,使得要有 LaCour 那樣的結果必須花非常多錢、找非常多受試者。於是他寫信給原本幫 LaCour 進行調查的公司,希望能用當初 LaCour 進行的方法來進行他的實驗,沒想到這間公司卻說他們沒有幫 LaCour 做這個實驗。後來 Broockman 等人於 2015 年 5 月在網站上寫了一篇很詳細的文章,指出 LaCour 資料的不尋常之處。隨著越來越多證據傾向 LaCour 的研究並不可信,很有可能假造資料,Science 也於 6 月將該文撤下。


後來 Broockman 他們想到一個方法來提高回應率:先發放一個無關的網路問卷(約 6 萬 8 千份),從裡面的 1825 個回應者裡隨機分配實驗組(談跨性別者歧視法案)與安慰劑對照組(談資源回收),並對這些人進行深度遊說。由於這些人本來就比較願意回應,後續的電子郵件追蹤調查回應率也就較佳,能大幅減少實驗所需要的經費。(但也值得我們思考,這些比較熱衷回應的人可能也比較容易被說服;儘管對照組的人可能也是如此,而我們估計的是實驗組與對照組間的差距,但該怎麼推論回整個社會平均而言的情況,仍是需要討論的。)

結果 Broockman 發現,這個他發現是假的實驗,在經過他的調整之後,是真的可以被做出來的,其結果刊登於最近 4 月的 Science。深度訪談的確顯著減少對於跨性別者的歧視,且與 LaCour 之前所聲稱的不同的是,不論訪談者是或不是跨性別,該效果都能持續至少 3 個月以上。

圖 5:深度遊說對消除跨性別歧視的效果
橫軸為訪談後的天數,縱軸為實驗組比對照組對跨性別者更友好多少(以標準差為單位),紅色、綠色、藍色分別是全部訪談者、非跨性別訪談者與跨性別訪談者說服效果的 95% 信賴區間。取自 Broockman and Kalla (2016)

重製能教我們的事

但在一篇訪問裡, Broockman 也表示用同樣的方法來測試人們對於墮胎法案的看法,就沒有發現效果,因此他覺得他最大的貢獻在實驗方法的改良,而非證實深度遊說的確有改變人心的效果。他也說,要是沒有當初 LaCour 那個虛構的實驗,他根本不會想重製那個實驗,更遑論想出一個可以改進實驗、節省經費而做出結果的辦法。

又有沒有可能,這整件事都是一個包裝好的行銷論文的手法呢?但不論如何,這個故事起碼告訴我們,在看學科大頭們利用 Science 來互嗆誰可以重製、誰不能重製,我們拿香跟拜之餘,也許我們更該做的是鼓勵更多的重製,鼓勵發表更多不論有無成功重製的結果,並如許多期刊在這幾年所做的,要求作者於文章發表時公開資料與原始碼。這幾年似乎也越來越多研究者願意在自己的網站上公開他的文稿、資料與原始碼,這些都能更有利於日後有興趣者的重製,並減少假造資料的可能。

除了上述透明化的訴求之外,Broockman 最近還想建立一個讓重製者與原作者匿名溝通的獨立平台,如果有其中一方發現情況不對勁,可以將過程全部揭露,期望能減少「重製者只會讓人留下愛找麻煩的壞印象」、「因為怕得罪人,所以只有已經有地位的大咖才敢重製實驗」等等目前不利於重製的誘因。


David Broockman 在史丹佛報告他的匿名溝通平台提案,並稍微提到他發現假實驗的經過

讓我們結束在一開始的小故事:儘管已經有不少討論,認為科學社群的盲目其實近似幫派,但她至少提供了一個(儘管可能阻礙重重的)內部自我修正機制:透過挑戰你心中的牛頓,來讓我們對世界的認識更進一步。就算這個實驗可能根本就做不出來,或是做出來但卻有不同的結果,他們很可能都提供了有用的訊息。

而在更多工作可以被機器取代、高等教育更普及、資訊傳遞更容易的未來,應該也更容易鼓勵人們、也會有更多人才可以來進行重製。而這長期來看應該也有好處:也許我們對一個問題的認識,透過二十篇雖然稍微粗糙、但角度稍有不同的研究,會更勝於一兩篇無懈可擊的、精巧的經典論文。


封面圖片來源:Understanding Science。感謝一位讀者的指正,由於頻率學派相信真實的值是固定不動的,所以我們將「真實的值會落在信賴區間內」的說法改成「真實的值會被包含在信賴區間內」。關於「顯著」的解釋,這位讀者也提供了更為精確也淺白的說法,或許之後可以用更多篇幅來談。至於我選擇使用「變數」而非一般統計學課本常用的「參數」,是為了減少專有名詞的使用。

鄧不利多

鄧不利多

“當然是在你腦中發生的啊,哈利,但是它為什麼不能同時也是真實的呢?”