就像大家手上已經作廢的運動彩券,世足賽結果一翻兩瞪眼是個事後諸葛回頭檢視賽前預測的良機。不管是用華麗的機器學習、透過托夢得到的天啓、還是會報明牌的章魚,只要正確猜對獲勝隊伍的就是好的預測方法。但比起預測冠軍獎落誰家,社會科學更關心的是背後的因果關係。為什麼一支球隊會強?一個國家要怎樣投入才會有比較強的球隊?除了占卜式的預測文章之外,在賽前也有一些試圖檢視因果關係的文章,我們選出兩篇較受關注的文章迴響。
其一是經濟學人的 “What makes a country good at football?” 。該文建立了一個統計模型,使用平均每人 GDP、足球的普及率、還有主場優勢分析國家的強度。該文表示他們的模型「解釋」了 40% 的分數變異,認為 GDP 還有對足球的興趣相當程度決定一國足球是否強大。該文於是根據這個統計模型,用不同的個案解釋為什麼這些因素很重要。
他們沒有詳盡敘述所使用的統計模型,但根據文中的敘述,模型的背後多半是一個線性的回歸,並將上述變量放進模型裡面的相關性分析。
另一篇是「勁旅與弱腳:世界足球排名的政治經濟學」,以下稱「勁旅」一文。他們試圖解釋世界各國足球的表現,相較於經濟學人的文章,他們使用民主和不平等這些變量,想了解他們和足球的關係。這篇文章利用他們跨時的資料,以「自己和自己比較」的「固定效果」方法,總結民主對足球強度有正面的幫助。除了更多有趣的變數,本文還更詳盡的描述所使用的模型,讓我們得以一探背後的分析。
首先是預測的表現,經濟學人文首即表明該文無意預測最後的冠軍,倒是勁旅一文有對這次世界盃的完整預測。任何統計模型都可以作為預測工具,唯一的判準就是在實際的表現結果如何。經濟學人一文分析的強隊有許多早早就中箭落馬。而雖然勁旅一文雖然在四強以後的預測表現差強人意,但單一樣本的事件本來就難以捉摸。酌以四強以前的表現,表現仍算可圈可點。
其次是這些文章的主軸:因果推論。他們分別強調流行程度、國家所得,還有民主與否對足球強盛的影響。單純的回歸模型很難推論因果關係,其中最重大的挑戰就是遺漏變數的處理。所謂遺漏變數在這個例子裡就是任何和同時和足球表現以及足球普及度、GDP,還有民主年份有關卻沒有被放進模型裡一起考慮的變數。舉個假設的例子,假設民主和足球一點關係都沒有,但是「一國的國運」卻深深影響足球的表現。假如「一國的國運」也同時保佑了民主,在觀察不到「一國的國運」的情況下,我們就會以為民主會影響足球表現。在勁旅的模型中因為控制了國家的固定效果,也就是在分析時將表現檢調自己長期的平均,因此我們只需要擔心會隨著時間改變的遺漏變數。
但處理這類問題最麻煩的就是他族繁不及備載。例如一個國家的運動風氣就可能同時和足球表現以及民主程度有關係,也可能會隨著時間改變。萬一這些因素彼此都是正相關,那這裡民主年份的效果就會被高估。另一個例子或許是媒體的普及程度、運動員的報酬……等等。社會科學一般處理這個問題採用的是工具變數的方法,在之前的文章中有介紹。
另一個威脅是這裡使用固定效果的矛盾。勁旅一文的民主是用年份來衡量的,但同時又加入了固定效果,意思是這個民主的年份其實不是年份,而單單純純只是一個對民主國家來說隨著時間會逐漸增長的變量。假設有兩個國家,分別在民主化 10 以及 20 年後開始,連續參與 4 屆的世界盃。他們在歷屆世界盃的民主化年數為:(10, 14, 18, 22) 和 (20, 24, 28, 32)。用固定效果估計的話,他們的民主歷史變數會變成:(-6, -2, 2, 6) 和 (-6, -2, 2, 6) 。結果後者雖然民主歷史多了 10 年,但在估計的過程中兩國呈現的民主歷史完全一樣。
比較容易詮釋的作法應該是乾脆做一個指標變數,民主國家作為一,非民主國家作為零。揣測是因為該文又想要控制固定效果,又很難在這麼短的年份裡面找到民主有大幅度的變化,因此才使用這個變數,這其實造成詮釋這樣的結果非常困難。
有很多研究都顯示民主帶來許多好處,但或許我們還沒有足夠的證據證明民主可以讓足球進步。統計能輕易地告訴我們哪些東西看起來有關,但真正要討論為什麼,我們還需要其他工具。