賽局奪魂鋸 1.5:囚徒困境與協調賽局

賽局理論協調賽局囚徒困境

賽局奪魂鋸 1 中,我們用兩個常見的有趣賽局來介紹非合作賽局理論的基本觀念。人們琅琅上口的囚徒困境賽局,是一個說明玩家在給定的規則下極大化個人利益,未必會達成社會最佳解的例子。協調賽局的簡單結構,則提供我們更多人類選擇行為的洞見。在這篇說明文章中,我們將會再次介紹納許均衡,以及一些文中提到的兩個賽局的延伸和實驗結果。

納許均衡

表 1: 囚徒困境
玩家二
否認 自首
玩家一 否認 ( 5 , 5 ) ( 1 , 8 )
自首 ( 8 , 1 ) ( 3 , 3 )

在非合作賽局中,我們關心的事情是:給定賽局的報酬結構,每一個玩家會採用如何的策略。為了說明方便起見,我們另外舉一個常見的囚徒困境賽局報酬矩陣。通常我們會有下面的故事:

兩個搶匪結伴搶銀行失風,在高速公路上驅車奔馳。 不久之後,這兩個人被警察攔下來。 但警察並沒有證據可以說他們兩個人就是銀行搶匪。 因此,警察把他們兩個人支開,分別對他們說這段話:

「你和你的同伴可以選擇要不要自首。如果你們兩個人都矢口否認,因為沒有證據,所以只能用辦你們超速。如果你們都自首,則可以從輕量刑。可是如果你們有一個人自首,一個人否認,自首的那個人將會轉為汙點證人減刑,而裝傻的那個人,就會因為不誠實被判更重的刑罰。」

這個賽局有兩個玩家,每個玩家一共有兩種策略,所以一共有四種 策略組合 :(否認、否認)(否認、自首)(自首、否認)(自首、自首)。這四個策略組合,將所有可能出現的結果窮盡了。對於這個囚徒困境賽局,我們會好奇哪一個策略組合是玩家們會選擇的。

納許均衡 就是在非合作賽局中預測實際策略組合的一個重要概念。首先,我們假想一個情境:所有其他玩家都已經選好他們要玩的策略,只剩下你一個人還沒選。這時候你當然可以輕易地選出一個使你報酬最大的一個選項。當你選好以後,輪到下一個人來選。下一個人會不會繼續維持原本的策略呢?下一個人一樣會考慮所有其他人的選擇(也包含你剛剛選的),然後決定要不要換。決定好之後,再換下一個……以此類推。要注意的是,這邊輪流的思考過程只是「假想」。實際上所有玩家們都是在正式行動前就已經先決定好自己想要的策略。重要的是, 玩家的策略,是相應於其他人的策略,使自己報酬最高的一種

現在我們考慮表 1 賽局中的(否認、否認)。對於玩家一來說,如果他已經知道玩家二選「否認」,第一個玩家的最佳策略便是選「自首」;而對於玩家二來說也是一樣的。因此,(否認、否認)就不太可能是合理的策略組合:兩個玩家都有 跳槽 的誘因。同理,(否認、自首)和(自首、否認)也不會是合理的策略組合。只有在(自首、自首)這個策略組合時,兩個玩家都不會有誘因跳槽(玩家一選自首時,玩家二也會想選自首;反之,玩家二自首時,玩家一也會想自首)。

(自首、自首)這個策略組合,對於這個賽局的所有玩家而言, 互相都是最好的回應 。所有玩家都會安然待在這個策略組合中不會跳走,這個策略組合就是一個 均衡 ;而用 互為最佳回應 來定義的這種均衡,我們就將其定義為 納許均衡1

我們再用下面的協調賽局來舉例。表 2 的協調賽局有兩個單純的納許均衡,分別是(蘋果、蘋果)和(橘子、橘子)。你可以驗證看看,在這兩個均衡點上,是不是不可能有跳槽的誘因。(給定玩家一選蘋果/橘子,我會不會想要換成選蘋果/橘子……等。)

另外,某些賽局中可能並不存在 單純 的納許均衡解,表 3 的唱反調賽局就是一個例子。你可以想想看,為什麼我把它叫做唱反調賽局。

表 2: 協調賽局
玩家二
蘋果 橘子
玩家一 蘋果 ( 1 , 1 ) ( 0 , 0 )
橘子 ( 0 , 0 ) ( 1 , 1 )
表 3: 唱反調賽局
玩家二
玩家一 ( 1 , 0 ) ( 0 , 1 )
( 0 , 1 ) ( 1 , 0 )

囚徒困境

你可能會注意到,納許均衡解並不見得隱含這個均衡點會是社會最有效率的策略組合。在上面舉的囚徒困境範例裡面,兩個人團結合作狼狽為奸矢口否認,對整個社會(也就是這兩個人)的加總是最高的。的確,納許均衡這個概念,是假設人們只考慮自己的最佳利益而得出來的預測。這個預測有時候並不那麼符合我們日常所做的經濟決策。你可以考慮以下這個賽局,並且先想想看你會怎麼玩,之後才再試著找出納許均衡解。

你和另一個素未謀面的旅客一起去某個島國玩,買了同一個當地負有盛名的紀念品。可惜在回程的時候,因為航空公司的疏忽,弄壞了你們的紀念品。航空公司為了賠償,把你們兩個人分別帶到小房間,提出了以下的賠償規則:

「你們可以在這張賠償申報單上寫出 2-100 的任意整數金額。如果你和另外一個旅客寫了相同的數字,那麼你們就可以得到你們所寫的賠償金。但如果你們兩個人寫了不同的金額,我們將會選出兩個人中金額較少的當作給付金額,另外還會額外給寫得比較低的人 2 元,做為『誠實』申報的獎勵。」

如果一步一步考慮 給定對方金額下的最佳回應 ,你會發現,這個賽局有一個唯一的納許均衡解:兩個人都申報 2 元。但很顯然的,如果這種事發生在你自己身上,你一定不會報 2 元這種「聰明」的答案,而可能會試圖報在接近 100 元,或是其他不同的選擇。這個賽局叫做 旅行者困境 ,事實上可以看做是囚徒困境的威力加強版。2 你會發現他們有一個共通點:那個被我們刪掉的「共創未來」的合作選項,在現實生活中卻不見得會被我們刪掉。

關於囚徒困境的實驗可以說是汗牛充棟,每個實驗關心的主題也各不相同。有趣(或可能也不意外)的是,幾乎沒有一個實驗結果是所有人都選擇不合作的。以一次定生死 (one-shot) 的囚徒困境來說,雖然在不同研究設定中各有變異,玩家選擇合作的比例大概是 30% 左右。有研究者真的對監獄裡的囚犯進行囚徒困境的實驗,結果發現,相較於一般的學生受試者,監獄裡的囚徒在一次定生死的囚徒困境賽局中,選擇合作的比例更高。也許街頭生存的智慧,讓囚犯們反而更不容易陷入聰明數學家的困境吧。

協調賽局

在文中的協調賽局中有兩個單純策略的納許均衡。而玩家會選擇這兩個點之中的哪一個,純粹就賽局的數學結構來說,納許均衡並沒有提供一個特定的建議或預測。這個時候,我們可能就會需要一些其他的概念來幫忙我們選擇均衡點。表 4 的賽局就是一個明顯的例子。

表 4: 不平衡的協調賽局
玩家二
玩家一 ( 1 , 1 ) ( 0 , 0 )
( 0 , 0 ) ( 1000000 , 1000000 )

即使我們改變了數字,這個賽局仍然有兩個單純納許均衡。(甚至如果你是已經知道混合策略均衡怎麼求的朋友,你會算出選擇上和左的機率不是 0 。)但就算不用真的做實驗,你也會馬上猜出來:在真實世界中,在這種看就知道要協調的賽局中,不會有人協調在(上、左)這個策略組合。這似乎告訴我們納許均衡在預測上還有不足夠的地方。

我們觀察表四中兩個單純納許均衡的報酬,會發現對於這兩個玩家來說,選擇(下、右)的報酬都比(上、左)來得高。這時我們可以說,(下、右) 報酬優越 (payoff dominant) 於(上、左)(還有混合策略均衡)。因此,(下、右)可能會得到比純粹的納許均衡更好的預測。

在協調賽局中,很重要的關鍵是玩家們如何選擇均衡。2005年諾貝爾經濟學獎得主謝林 (Thomas Schelling) 便提出了一些預測協調賽局,也就是找尋 聚焦點 (focal point) 的方式。我們用下面這個情境為例:

南部來的你,有一天約了你的天龍朋友吃飯。因為你們很久不見,相聚時間不多,所以必須要盡量減少互相等候找地方的時間。這個時候,你們會想要約在天龍國的哪裡?

你可能會提出幾個地點:天龍車站、么洞么大柱子……,而你會選這些點,無非是因為他們對外地人來說比較好找。事實上,你們當然可以約在天龍國的任意地方,而只要你們有碰到面,就算是功德圓滿。只是你們還是會想要找一些共同的點,作為相互之間的聚焦處。實際在實驗室中,如果有這樣子多均衡的協調賽局,通常人們在經過幾回合後,就會自動「歸位」到幾個特定的聚焦點上;這些聚焦點通常是整數、名人等等容易猜測、協調的點。

協調賽局還有另一個有趣的分支。

表 5: 男女大戰
木瓜之城 麵點王羅根
木瓜之城 ( 2 , 1 ) ( 0 , 0 )
麵點王羅根 ( 0 , 0 ) ( 1 , 2 )

有一天,一對生理異性戀情侶決定要找時間一起去看電影。在挑電影時,男生比較想看木瓜之城,女生則比較想看麵點王羅根。基本上,這兩個人都想要跟對方一起去看,鬧翻分開看對他們的報酬都是 0 。但如果要兩個人一起看,則又一定會有一個人要比較委屈一點。那麼,在這個戰男女賽局中,納許均衡會是什麼呢?如果你要預測這個賽局的結果,你會怎麼預測?為什麼?

人生很長,相遇得到

這一次我們提到的兩個賽局,都是一次定生死的勝負。但你可以很容易想到,如果你跟朋友面對面玩囚犯困境,除非你們打算從此以後老死不相往來,你大概不會輕易就選擇背叛的選項。的確,如果我們開始玩需要重複很多次的、或是有多階段的賽局,這時候要考慮的可能就不只某一回合是不是能削爆對手,而是需要從長計議。至於我們要怎麼分析呢?

就等下次我們來玩更多遊戲吧。


註解

  1. 雖然納許 (John F. Nash, Jr.) 並不是第一個提出以互為最佳回應來定義均衡的人。但在納許發展出以混合策略來定義的均衡,並且證明出「所有玩家有限、單純策略有限的賽局都至少有一個納許均衡(可以是混合策略均衡)」之後,納許均衡這個概念便開始大顯神威,成為非合作賽局理論的重要關鍵。

  2. 把這個賽局的策略空間改成:{申報 99 元 , 申報 100 元}然後畫出報酬矩陣,不覺得跟囚徒困境很像嗎?另一個相似的地方是,使這兩個人可能收入最大的策略組合,也並不是納許均衡解。

RedHerrings

RedHerrings

從大西洋捕上來的新鮮鯡魚,以壯年的松木煙燻,再經高山岩礦醃漬,直到表面出現紅色花紋。獵戶們會利用燻鯡魚的陣陣香氣,將其散落在森林當中,訓練獵犬避開鯡魚的香氣,正確捕捉獵物的行蹤。