統計術語小教室：你說的是真的嗎？

廢除死刑到底會不會造成犯罪率上升？念理組是不是真的賺比較多錢？中央銀行有沒有「阻升不阻貶」？老師會不會因為學生長得好看分數就給比較高？某總統的支持度是不是真的只剩9.2%？工學院是不是真的都會變成魯蛇、工具人？在生活中，我們常常遇到一些似真或假的命題。一般的狀況下，當有人丟出了上面這些問題，就會有鄉民們開始分享個人經驗，結果最後淪為嘴砲大會，沒人知道真相究竟是什麼。

有人會說，上面這些問題都很簡單啊，只要拿出數據一看，就知道他們是不是有關係了。這句話看起來雖然很簡單，實際上到底要用什麼數據，怎麼用這些數據，裡面也有很多值得細究的地方。在經濟學以及其他應用科學裡面，我們經常會使用 統計學 工具來處理這些關於數據和資料的問題。這篇文章將會從資料的最源頭開始，介紹我們如何處理及解釋資料，並且怎麼用他們來說一個宣稱到底是不是「真」的。

[本文首圖取自：https://www.flickr.com/photos/deathhell/]

估啊估，估到一尾大魯蛇──抽樣與估計

[※對統計學熟悉者可跳過此段]

我們經常在日常生活中聽到的宣稱是：

念理工的男生，因為腦袋比較死，所以不容易交到女朋友。

但我們也有可能聽到下面的宣稱：

念理工的男生，因為將來會賺的錢比較多，所以比較容易交到女朋友。¹

這兩種說法乍聽之下似乎都有點道理。但在我們開戰之前，好像必須要先弄清楚一個事實：

「一個男生念理工科系，跟他有沒有交女朋友的機率是否有關？」

其中一個回答這個問題的方式，可能是：

把這個世界上所有的理工男抓起來，問問看他有沒有女朋友；然後再把另外一群非理工男也抓起來，問問看他有沒有女朋友。比較這兩群人中，理工男和非理工男，有女朋友的比例 誰比較高。²

假如我們是操作實驗的外星人，可以在一瞬間讀取地球上所有人的記憶，那麼或許這個研究計畫是會通過銀河系國科會審查的（人類太低等不需要經過倫理委員會審核）。可惜，一般人不可能花這麼多功夫，來收集全人類的資料。但是理想上，我們真正想要知道的，應該就是人類這個母體 (population) 的特性。這種與母體特性有關的數據，我們稱它為 「母體參數」 (parameter)。這些母體特性，總之因為某些原因，基本上非常難知道。³ 因此，我們需要用一些方式，來「猜」我們關心的母體參數到底在哪裡。

怎麼「猜」才會猜中母體參數呢？最直覺的方式，就是化身記者，去路邊隨便抓幾個人，問他們有沒有女朋友。你站在街頭一段時間，剛好收集到理工非理工各10個人，然後發現非理工男當中有4個有女朋友，但只有一個理工男有女朋友。所以記者就下了：理工男魯蛇哭哭的結論……

我們很輕易能發現這裡可能有的幾個問題：
(1) 記者可能只是剛好抽到沒女朋友的理工男
(2) 記者自己故意挑看起來像沒女朋友的理工男訪問
(3) 記者剛好就站在文青約會勝地：咖啡廳前面

因為時間和金錢的限制，我們只能從母體當中，挑選出一些樣本 (sample) ，來當作我們推估母體參數的工具。如果我們想要知道世界這個抽獎箱當中，到底有幾隻魯蛇在裡面，就只能從中間抽幾隻出來，看看他們到底是不是魯蛇。如果原本箱子裡面的魯蛇就多，那麼我們抽出來的是魯蛇的機率，應該也會比較高才對！當我們抽出來的蛇越來越多，我們手上有的魯蛇比率，會越來越靠近世界上魯蛇的比率。⁴ 我們抽出來，用來推測母體參數的這個魯蛇比率，我們就叫他 統計量 ([sample] statistic)。

依照剛剛的分析，究竟我們抽出來的 樣本統計量 ，能不能順利幫助我們估計 母體參數 呢？

(1) 這可能跟你的運氣有關。當人在衰的時候，就算100支當中只有1支爛籤，還是有可能抽到。不過呢，當我們抽很多支的時候，這個問題有可能改善。⁴但要隨時注意： 某個統計量，是在特定的機率底下被抽出來的，仍然有可能跟母體參數差很多 。

(2) 我們抽的群體，可能並不是我們所關心的群體。會去喝咖啡的人，跟總是待在家裡的人，兩種人有極大的差異。在這兩類人當中，交到女朋友的機率，應該也十分不同。這樣的抽樣問題，我們會叫他 取樣偏誤 (sampling bias)。不過它不一定是一個非解決不可的麻煩。假如我們關心的問題，是「會去喝咖啡的人當中，理工男和非理工男交到女朋友的機率是否相同」，那麼這就不是什麼大麻煩。但如果我們要把這個結果，拿去擴大解釋到全台灣的男生，那就說不過去了。

當我們遇到一個數據的時候，一定要非常小心：這個數據到底是怎麼產生出來的？如果這個數據產生的過程有瑕疵，或是不符合我們想要問的問題，那麼接下來不管這個數據告訴你什麼，大概也就是一堆垃圾而已。

相信我，我絕對不是魯蛇！──信賴區間

剛好有一群專業的研究者，不知道為什麼對理工男的單身議題很感興趣，利用很好的簡單隨機抽樣 (simple random sampling, SMS) 抽出了一些樣本。他們得到的結果是：

理工男有女友比率：40%；非理工男有女友比例：50%

首先，我們想要知道的是：這個猜測到底準不準？但我們要怎麼定義「準不準」呢？看看下面這個定義：

如果經過抽樣得到的樣本統計量，與真正的母體參數 完全相同 ，那麼我們說一個樣本統計量準確估計了母體參數。

的確，滿足這個標準的統計量，確實是能夠100%準確猜中母體。那麼，在上面的例子當中， 給定抽樣結果是40%和60% ，究竟有沒有準確猜中母體參數呢？

答案是，幾乎猜不中。想想也很理所當然。真正的母體參數也就這麼一個點，但是可能的抽樣結果卻有接近無限多個。這樣的標準，似乎不能給我們多好的指引。那麼，我們或許可以改變一下標準：

我們利用樣本，用特定方法選定一個 數字範圍 。如果在很多次相同的抽樣估計當中，利用這個方法所選定的 數字範圍 ，有很高的機率會包含到真正的母體參數，那麼我們就說：這個區間可以準確估計母體參數。

上面的這段文字，其實在說明的就是所謂 信賴區間 的觀念。信賴區間並不是指：「某個特定樣本製造出來的區間，有很大的機率包含母體參數。」相對地，某組抽樣製造出來的區間，要嘛有，否則沒有包含母體參數──要記得，我們所有的樣本（當然利用樣本製造出來的區間也是），都是在特定的機率底下被抽出來的，有可能跟母體參數差距很遠。

舉例來說，我們能不能製造一個 100% 包含母體參數的信賴區間呢？當然可以，就是 全部可能數字 所製造出來的區間。但想想，當有人跟你說：

理工學生交到女朋友的機率，分布在 0% 到 100% 之間。

你一定很想一拳往他頭上打下去：這不是講廢話嗎！這樣的猜測雖然準確，但是也沒有辦法提供你任何幫助。那麼，或許把範圍縮小一點會有幫助。

我們設想一個製造信賴區間的規則。⁵

首先，因為我們知道，平均數雖然不一定會猜中母體參數，但是平均數大概離母體參數不會太遠，所以我們應該可以圍繞著抽樣出來的平均數來估計我們想要的信賴區間。
如果母體參數的機率分配很分散（例如：樂透抽球的結果有可能是1號 – 49號，抽中每一顆球的機率基本上是一樣的。），那麼我們在製造這個區間的時候，可能就不能縮得太小。相對地，如果母體參數的分配相對比較集中（例如：人類的身高），那麼我們製造區間的時候，可能就不用把寬度設得很大，這個製造區間的方法也能夠足夠準確的估計到母體。簡而言之，差異越大，區間越大；差異越小，區間可以越小。
如果我們抽取的樣本數目越多，樣本統計量受到隨機性的影響就越低。舉例來說，如果你只是剛好訪問到兩個沒女朋友的理工男，那可能只是運氣不好。但如果我們訪問到每個人都沒女朋友，那我們就會開始覺得，這個結果可能不是隨機的，那麼我們就可以進一步縮小區間的範圍。

注意！Caution！前方非戰鬥人員請撤離！

假設我們使用抽樣的結果 $X$ ，得到了一個信賴區間的上界 $ u(X) $ 與下界 $v(X)$。那麼，所謂一個信賴區間的 信心水準 (confidence level)，就是指以下這個事件發生的機率：

$$v(X) \leq \textrm{母體參數} \leq u(X)。$$

舉例來說，剛剛的研究人員們，可以利用抽樣資料，計算出樣本的平均數 $\bar{X}$，以及樣本的標準誤 $s$。⁶他們設計了以下的區間來估計母體參數： $$[\bar{X}-a\times s,\bar{X}+a\times s]$$

其中 $a$ 是一個特定的倍數。他們也計算出來，只要使用這個方法製造區間，有 95% 的機率，製造出來的區間會包含母體參數。

他們依此得到了「理工男交到女朋友的機率」的一個 95% 信賴區間： $$[0.3,0.5]。$$ 雖然我們不能就這樣說，理工男交到女朋友的機率就是在0.3到0.5中間（也不能說有95%的機率在0.3到0.5中間──參數要嘛在要嘛不在那個區間裡面），但我們似乎可以大概抓住一點概念。當我們使用的抽樣方法夠好，我們關心的真相，可以說是「雖未必中，亦不遠矣」。

假設我有女朋友……──假設檢定

從上面的結果，我們能夠推論出：非理工男有女友的比例比較低嗎？先等一下，記得我們一直反覆說的：某個統計量，是在特定的機率底下被抽出來的，有可能跟母體參數差很多 。因此，有可能是因為「剛好」我們就是運氣不好，抽到的理工男都是沒有女朋友的，並不代表兩個群體的母體參數真的不一樣。

但是，如果我們看到理工男和非理工男，交到女朋友的機率真的是如天地一般的差距，那麼我們可能還是會覺得，這兩種人之間 沒有差異的可能性，好像真的非常小。這兩種人的差異，到底差距要到多大，我們才能夠有相當的把握宣稱這兩種人真的不一樣呢？

為了使接下來的說明簡易起見，我們先在這裡把問題簡化成比較簡單的版本：

理工男交到女朋友的機率，是不是 20% 。

對於真實母體參數而言，有兩種可能性：

Ho: 理工男交到女朋友的機率是 20% 。
Ha: 理工男交到女朋友的機率不是 20% 。

這兩種可能性只有其中一個會是真的。我們暫且把這一組可能性，稱作一組假設 (hypothesis)。其中，我們通常會把第一個含有「是」的稱作 虛無假設 (null hypothesis)，另一個則稱作 對立假設 (alternative hypothesis)。⁷

因為我們關心虛無假設到底是不是真的，所以我們希望藉由抽樣得出的結果，來給出一個 是否拒絕虛無假設 的建議。但記得，因為抽樣永遠都是機率運作下的結果，所以發生錯誤在所難免。我們把假設和抽樣告訴你的建議列在下表：

	虛無假設 Ho 實際為真	虛無假設 Ho 實際為假
抽樣結果建議：拒絕虛無假設	型一錯誤 (type I error)	猜對！
抽樣結果建議：不拒絕虛無假設	猜對！	型二錯誤 (type II error)

從表中我們可以發現，右上和左下的情形，我們的抽樣結果給的建議，與真實狀況並不衝突。但左上與右下，分別都各代表一種錯誤。我們用一個實例來說明上面那個表格。

	實際上無罪（＝0）	實際上非無罪（≠0）
調查結果顯示：拒絕嫌疑犯無罪的假設	誤判：錯「殺」一人	沒有誤判
調查結果顯示：不拒絕嫌疑犯無罪的假設	沒有誤判	誤判：錯「放」一人

這兩種錯誤，背後隱含的意義有點不同。型一錯誤指的是：把不存在的差異，誤判為有差異。例如，在犯罪調查時，檢調經過蒐集證據後，拒絕了犯人可能「無罪」的假設，但實際上犯人真的無罪。型二錯誤則是指：事實上有差異，但我們卻以為沒有差異。例如嫌疑犯被判斷為無罪，但事實上他仍然有犯罪，這時候我們就犯了型二錯誤。

在我們討論假設檢定時，核心的問題是：某個統計量，是不是和我們預先設定的某個猜測（假設） 沒有差異 。我們在上面的抽樣中，得到了一個 40% 的結果。當我們用這個 40% 的數據，來宣稱「理工男交到女朋友的機率並不是 20% 」時，我們還是有可能會犯 型一錯誤 ，也就是錯誤地拒絕了「理工男交到女朋友的機率是 20% 」的這個假設。

因為我們的抽樣結果總是來自某個機率分配，所以難免會有預測失準的情形。但是如果我們可以讓犯型一錯誤的機率非常的小，那麼當我們說某個東西與預先設定的虛無假設有非常明顯的差異時， 我們幾乎不會將不存在的差異誤以為其存在。

我們將犯型一錯誤的機率，稱之為 顯著水準 (significance level)，也就是當顯著水準數字越低的時候，我們可以說樣本的結果，與虛無假設有顯著的差異。這個數字要多小見仁見智，經濟學術中經常使用的大概會是 10% 或是 5% ，依照解釋力強弱不同，也有選擇到 1% 甚至 0.5% 的極低犯錯機率。

回到我們最開始的問題。我們得到的理工男40%機率，能不能拒絕「理工男能交到女友的機率只有 20% 」的假設呢？你可能會猜到，這一樣跟樣本的機率分配有關。如果我們的樣本分配非常分散，那麼我們可能就很難拒絕，也就是我們可能要拿到一個 100% 的資料才能夠顯著地拒絕這個 20% 的虛無假設，因為在真實狀況是 20% 的條件下，要抽中 40% 的樣本可能是很容易達成的事情。但如果樣本分配相對而言比較集中，我們就能夠用比較小的差距達成顯著拒絕虛無假設的目標。

有沒有覺得前面這部分的敘述很眼熟呢？沒錯，顯著水準與信賴區間，的確有一點關聯。接下來我們簡單介紹使用區間估計來進行假設檢定的辦法。⁸

首先，先回憶一下信賴區間的定義。以我們的例子來說： $[0.3,0.5]$是利用樣本求算出的理工男交到女朋友的 95% 信賴區間。也就是說，使用這套規則製造的信賴區間，有 95% 的機率會包含真正的母體參數。換句話說，也就是有 5% 的機率，這些信賴區間不會包含真正的母體參數。

當我們求算出一個特定的信賴區間時，如果他沒有包含虛無假設中的母體參數20% ，我們就依此宣稱：在至多 5% 的顯著水準下，我們拒絕虛無假設。這麼做會不會使我們犯型一錯誤的機率最多是 5% 呢？答案是肯定的：因為我們使用前段所述方法製造信賴區間時，已經說有 95% 的機率會涵蓋真正的母體參數。所以倒回來說，給定這個已經製造出來的$ [30%,50%] $ 信賴區間，它有至多 5% 的機率，是由 20% 這個母體參數所製造出來的；而這恰好就是我們對顯著水準的定義。

我們也可以檢驗一些比較複雜的假設，例如：

Ho: 理工男交到女朋友的機率與非理工男相同。
Ha: 理工男交到女朋友的機率與非理工男不同。

方法和原理，基本上都與前述段落大同小異。

結語：所以你是魯蛇嗎？

數量化的結果，是讓現代科學發揮威力的一個重要工具。如何詮釋我們生活中的數據，就會是一個重要的關鍵。當我們看見一個數據的時候，要時刻思考：這個數據背後，到底是有實際的意義，抑或僅僅是來自於隨機性的結果。否則，當你下次又拿出一些沒有根據的數字來吹牛的時候，就不要怪別人沒根據地笑你是魯蛇了。

這篇文章介紹的統計學知識，只是最粗略的概念性介紹。如果你還希望更深入了解這篇文章提到的幾個主要概念，網路上也有許多相關的資源可供參考。

稍作解釋：這邊只是為了舉例方便，所以用生理異性戀當例子。這些宣稱也都不一定是真的，所以才有檢驗的必要。本文也無意宣稱所謂當「魯蛇」是一件壞事，這邊只是借用一個容易理解的代稱。如果有讀者願意為魯蛇平反，也歡迎各位投稿；我們也非常想看到真正的關於魯蛇現象的研究。 ↩︎
除了平均數之外，還有很多猜測母體平均數的辦法。例如鄉民們最喜歡的三級貧戶上大學（最大／最小值），或是永遠的9.2（不管抽到什麼樣本，永遠都猜同一個數字）都可以。不同的方法之間當然有其優劣之分。一個好的猜測（點估計，point estimation），我們通常希望它滿足一些好性質：平均而言跟母體參數不要差太遠（不偏性，unbiasedness）、不同次猜測結果不會變化太大（效率性，efficiency）、每一個抽出來的樣本都會被妥善運用（充分性，sufficiency）、當樣本很大的時候跟欲估計參數非常接近（一致性，consistency）等。普遍來說，平均數經常滿足上面那些特質；此外，平均數還有一些好的特性，使得我們用起來是非常舒適。當然，依照不同的情況，我們也可以選擇其他猜測方式，沒有絕對的標準。比如在估計國民所得的時候，平均數還是不是一個好的猜測？有沒有可能中位數是更好的猜測方式？ ↩︎
非常難知道的原因有很多：可能是因為調查所需的成本太高，或是調查是破壞性的（例如燈泡的良率試驗、宅男的玻璃心QQ）。如果對抽樣議題有興趣，市面上的統計學參考書，大概都會談到，這裡不再贅述。 ↩︎
這種現象的術語很有名，就是傳說中的 大數法則 (Law of Large Numbers)。具體來說，(弱)大數法則是指：當抽取的樣本數足夠多的時候，樣本的平均數會「機率上」非常靠近母體平均數，也就是樣本平均數與母體平均數不一樣的機率幾乎是0！至於要怎樣才夠大呢？這個問題會視母體分配不同而有所不同。 ↩︎ ↩︎
一樣地，文中所述也不是唯一一個製造信賴區間的方法。 ↩︎
標準誤大概指的是：「每一筆抽樣資料製作出來的平均數，與真正平均數之間的距離」之平均。如果每一筆資料，跟平均數的差距都非常遠，那麼我們可以說這筆資料比較分散。當然標準誤具體的定義不是這樣，但概念上是類似的。詳情請見一般統計學課本或高中數學課本。 ↩︎
這個虛無的名字看起來好像真的很虛無，不知道在講什麼。但當我們有一個像「某藥效果=0」這樣的虛無假設，這個名字聽起來好像就很合理了：因為某藥的效果真的是「虛無」的。我們當作虛無假設的句子，實際上就是在描繪「沒有差異」這件事情。 ↩︎
常用的尚有 關鍵值法 (critical value method) 與 p值法 (p-value method)。 ↩︎