<p class="ql-block"> 如何在博弈中將主動(dòng)權(quán)掌握在自己手里?如何由自己來(lái)選擇博弈策略,而不只是被動(dòng)地迎合別人?如何在博弈中采用能獲得最大利益的策略呢?</p><p class="ql-block" style="text-align: justify;"> 這種困惑不僅我們有,所有博弈參與者都有。</p> <p class="ql-block"> 從人的本性來(lái)說(shuō),人都是自私的,一個(gè)人做有利于社會(huì)及他人的事,是做好事;而做損害他人利益及社會(huì)的事,就是做壞事。人做事總是以自己的利益為出發(fā)點(diǎn),這樣就傾向于做“壞事”!有懷疑嗎?是的,但這確實(shí)是真的??!人的自然傾向是“做壞事”。</p><p class="ql-block"> 而從社會(huì)博弈論來(lái)說(shuō),背叛總能取得最大的利益,特別是在他的背叛本能還沒(méi)有被大家識(shí)破之前,總能得利,選擇的還是做“壞事”。所以從人的本性來(lái)講,是無(wú)所謂好壞的,是以獲取最大利益為其目的的。</p><p class="ql-block"> </p> <p class="ql-block"> 但遺憾的是,你的“合作伙伴”也是這么想的。大家都做壞事,互相損壞,結(jié)果大家都吃虧,合作難以進(jìn)行。為獲取利益最大化,人們不得不反過(guò)來(lái)爭(zhēng)做“好人”,而不做“壞人”。因?yàn)椤白龊萌恕睅?lái)的長(zhǎng)遠(yuǎn)利益最大化遠(yuǎn)遠(yuǎn)超過(guò)了“做壞人”。做好人帶來(lái)的利益是長(zhǎng)期的,而做壞人獲得的利益是一過(guò)性的。于是人們一方面做著好人,但又時(shí)刻準(zhǔn)備著隨時(shí)“背叛”,做次壞人。在博弈中,“沒(méi)有好壞、只有利益”。</p><p class="ql-block" style="text-align: justify;"> 在所有非零和博弈游戲參與者中,他們一部分利益是一致的,另一部分是沖突的,一個(gè)策略的有效性不僅取決于這個(gè)策略的本身特點(diǎn),而且取決于當(dāng)它遇到其他策略時(shí)它的應(yīng)對(duì)性。</p> <p class="ql-block" style="text-align: justify;"> 世界很快就來(lái)到20世紀(jì)后期,大型電子計(jì)算機(jī)進(jìn)入臨床應(yīng)用,使超級(jí)矩陣計(jì)算成為可能。博弈論專家終于有了驗(yàn)證之地,為了選擇最佳的博弈策略,用計(jì)算機(jī)設(shè)計(jì)了博弈策略方案的競(jìng)賽。</p><p class="ql-block" style="text-align: justify;"> 競(jìng)賽是循環(huán)進(jìn)行的,每一個(gè)競(jìng)賽程序都隨機(jī)地與其他程序相遇,以相等的概率隨機(jī)地選擇合作或背叛。每輪游戲有200次對(duì)局,支付矩陣按照“囚徒困境”來(lái)設(shè)計(jì):</p><p class="ql-block" style="text-align: justify;"> 對(duì)雙方合作獎(jiǎng)勵(lì)每人3分;對(duì)雙方背叛每人只給1分;如果一人背叛一人合作,背叛者得5分,而合作者僅得0分。整個(gè)循化賽重復(fù)了5次,一共進(jìn)行了12萬(wàn)次對(duì)局,24萬(wàn)個(gè)不同的選擇。</p> <p class="ql-block" style="text-align: justify;"> 競(jìng)賽開(kāi)始了,來(lái)自全世界心理學(xué)、經(jīng)濟(jì)學(xué)、數(shù)學(xué)、社會(huì)學(xué)、政治學(xué)精英們,共設(shè)計(jì)了14個(gè)程序參加了比賽,絕大部分程序來(lái)自那些博弈論或在“囚徒困境”方面有過(guò)深入研究的人員,允許不同學(xué)科的人以相同的語(yǔ)言和規(guī)則進(jìn)行相互競(jìng)賽。</p><p class="ql-block" style="text-align: justify;"> 14個(gè)程序中包含了各種復(fù)雜的策略。競(jìng)賽的結(jié)果卻使阿克塞爾羅德和其他人大為吃驚,競(jìng)賽的桂冠居然屬于多倫多大學(xué)心理學(xué)家阿納托·拉帕波特提交上來(lái)的,也是其中最簡(jiǎn)單的策略:一報(bào)還一報(bào)(TIT FOR TAT)策略,總得分為504.5分。</p><p class="ql-block" style="text-align: justify;"> 比賽的總分是600分,那些善意的程序(指不首先背叛的程序),平均得分在472-504分之間,而那些不善良的程序(常常首先背叛的程序)的平均得分僅401分。比賽的前8名均是善意的程序。</p> <p class="ql-block" style="text-align: justify;"> 一報(bào)還一報(bào)策略是這樣的:它總是以合作開(kāi)局,但從此以后就采取以其人之道還治其人之身的策略(即針?shù)h相對(duì)策略)。也就是說(shuō),如對(duì)方采取合作策略,就繼續(xù)合作下去;如對(duì)方一旦采取背叛策略,就馬上強(qiáng)硬采取背叛策略,決不拖延。</p><p class="ql-block" style="text-align: justify;"> 一報(bào)還一報(bào)的策略實(shí)行了胡蘿卜加大棒的原則。胡蘿卜在先,大炮在后。它永遠(yuǎn)不首先背叛對(duì)方,從這個(gè)意義上來(lái)說(shuō)它是“善意的” 。它會(huì)在下一輪中對(duì)對(duì)手的前一次合作給予回報(bào)(哪怕以前這個(gè)對(duì)手曾經(jīng)背叛過(guò)它),而不管對(duì)方以前的表現(xiàn),從這個(gè)意義上來(lái)說(shuō)它是“寬容的”。但它一旦遭到背叛就會(huì)立即以背叛來(lái)懲罰對(duì)手前一次的背叛,從這個(gè)意義上來(lái)說(shuō)它又是“強(qiáng)硬的”。而且,它的策略極為簡(jiǎn)單,針?shù)h相對(duì),對(duì)手一望便知其用意何在,從這個(gè)意義來(lái)說(shuō)它又是“簡(jiǎn)單明了的”。</p> <p class="ql-block" style="text-align: justify;"> 因?yàn)楦?jìng)賽的結(jié)果太出乎意料了,于是阿克塞爾羅德又組織了第二次競(jìng)賽,并在競(jìng)賽前將第一次競(jìng)賽的結(jié)果公布,即參賽者都知道第一輪“一報(bào)還一報(bào)”策略贏得了第一輪競(jìng)賽,一報(bào)還一報(bào)策略亮相公開(kāi)。大家驚嘆其策略的簡(jiǎn)單、明了。于是圍繞著一報(bào)還一報(bào)的策略設(shè)計(jì)出許多更復(fù)雜、更精細(xì)、更大膽的方案。針對(duì)修改過(guò)的程序再次進(jìn)行測(cè)試,但這次比賽為無(wú)限循環(huán),沒(méi)有人知道最后一步會(huì)什么時(shí)候到來(lái)(這消除了游戲最后一步的影響)。</p><p class="ql-block" style="text-align: justify;"> 來(lái)自美國(guó)、加拿大、英國(guó)、挪威、瑞士、新西蘭等6個(gè)國(guó)家的專家提供了62個(gè)程序參加了競(jìng)賽,63個(gè)規(guī)則(包括隨機(jī)程序)在循環(huán)賽中有3969個(gè)配對(duì),第二次競(jìng)賽一共進(jìn)行了上百萬(wàn)次對(duì)局。</p><p class="ql-block" style="text-align: justify;"> 在競(jìng)賽中,許多程序的表現(xiàn)是耐人尋味的,如“檢驗(yàn)者”程序,經(jīng)常出其不意背叛一下,以求得最大利益,如遇到對(duì)手反擊,就趕緊道歉,恢復(fù)合作,以后有機(jī)會(huì)再不定期背叛。而“鎮(zhèn)定者”程序則是以合作為主,間歇主動(dòng)背叛,但不會(huì)連續(xù)2次,背叛人數(shù)也不超過(guò)群體的1/4。其他還有“一報(bào)還二報(bào)”與“二保還一報(bào)”策略。</p><p class="ql-block" style="text-align: justify;"> </p> <p class="ql-block"> 值得一提的是“哈林頓”程序,這是一個(gè)占便宜的程序,也是唯一一位列前15名的非善良程序。一開(kāi)始就跑在前列,在競(jìng)爭(zhēng)頭200代以前,它還名列前茅,但到了200代以后,情況發(fā)生了變化,那些不成功的策略紛紛淘汰,這意味著被“哈林頓”占便宜的“冤大頭”也越來(lái)越少,但當(dāng)這些老實(shí)人都消失以后,“哈林頓”失去了獵物,其命運(yùn)也與其獵物相同了,到1000代時(shí)就完全消失了,正如那些被他消滅的“冤大頭”一樣。</p><p class="ql-block" style="text-align: justify;"> 最終,結(jié)果出來(lái)了,還是“是一報(bào)還一報(bào)”策略又一次奪魁。競(jìng)賽的進(jìn)程與結(jié)論都是無(wú)可爭(zhēng)議的,一開(kāi)始,“一報(bào)還一報(bào)”并不是最領(lǐng)先的,但慢慢地,隨著競(jìng)賽的發(fā)展,其得分越來(lái)越靠前,最終奪得勝利,<b>這意味著好人總有好報(bào)</b>,具有這種策略的人,最終總會(huì)是贏家。</p> <p class="ql-block" style="text-align: justify;"> 后來(lái),舉辦者又進(jìn)行了第三次“重復(fù)囚徒困境博弈對(duì)抗賽”,這一次并未采取新的程序,而是改變了電腦程序后將第二次參與比賽的63個(gè)程序進(jìn)行了重新比賽。比賽的勝負(fù)不是以得分高低來(lái)決定,而是依據(jù)其產(chǎn)生多少后代來(lái)決定。到200代時(shí),幾乎所有的狡詐的惡意程序都消失了,“一報(bào)還一報(bào)策略”仍然表現(xiàn)良好,其他5種“善良而不懦弱”的策略表現(xiàn)也與“一報(bào)還一報(bào)”一樣表現(xiàn)良好。</p><p class="ql-block" style="text-align: justify;"> 到1000代時(shí),策略與環(huán)境都已不能再改變而達(dá)到了“進(jìn)化穩(wěn)定策略(EES)狀態(tài),當(dāng)所有的欺詐程序都消失后,“一報(bào)還一報(bào)”和別的善良程序已無(wú)法區(qū)分,趨向融合,因?yàn)樗麄內(nèi)巧屏嫉?,采取合作策略。難怪道金斯評(píng)論說(shuō):就是在“自私的基因”控制下,好人仍有好報(bào)?!昂萌擞泻脠?bào)”終于有了理論上的依據(jù)。</p> <p class="ql-block" style="text-align: justify;"> 組織者將這次競(jìng)賽的所有程序分為三種:</p><p class="ql-block" style="text-align: justify;"> 1、善良的程序,在任何時(shí)候都不會(huì)首先背叛;</p><p class="ql-block" style="text-align: justify;"> 2、惡意的程序,會(huì)經(jīng)常在你不注意時(shí)進(jìn)行背叛,以求占便宜獲得高分; </p><p class="ql-block" style="text-align: justify;"> 3、冤大頭、逆來(lái)順受者程序,受到背叛時(shí)不會(huì)有力反擊者。</p><p class="ql-block" style="text-align: justify;"> 在競(jìng)賽開(kāi)始的階段,善良的程序并不占先,惡意的程序一路領(lǐng)先,而逆來(lái)順受者程序得分最少,遠(yuǎn)遠(yuǎn)落在后面。到競(jìng)賽中期,逆來(lái)順受者程序基本被消滅,而惡意者程序互相遭遇的機(jī)會(huì)增多,相互背叛的機(jī)會(huì)增多,得分開(kāi)始下降。而到了競(jìng)賽后期,善良的程序開(kāi)始領(lǐng)先,惡意的程序由于相互背叛增多并受到善良但不懦弱程序的反擊,得分直線下降,最終完全消除。</p> <p class="ql-block" style="text-align: justify;"> 而在現(xiàn)實(shí)中也是如此,最初背叛侵略進(jìn)攻者,一開(kāi)始都能獲利匪淺,而那些軟弱的逆來(lái)順受者往往最先被消滅。而那些挺過(guò)了第一波攻擊,并采取反擊者,則慢慢獲利。隨著時(shí)間的推移,那些堅(jiān)定反擊而不背叛者,獲利則越來(lái)越多,而那些背叛侵略者則越來(lái)越弱,漸漸消失。最終勝利歸于善良反擊者。</p><p class="ql-block" style="text-align: justify;"> 而“一報(bào)還一報(bào)”策略,又稱“針?shù)h相對(duì)”策略,就是這樣一個(gè)策略,始終在競(jìng)賽中取得勝利,可見(jiàn)這種策略是一個(gè)“<b>進(jìn)化穩(wěn)定策略(EES)</b>”,成功必有其內(nèi)在的原因。這就是原因!拿這個(gè)去理解當(dāng)前世界上的爭(zhēng)執(zhí),戰(zhàn)爭(zhēng)、和平、合作,還有什么不明白的嗎?誰(shuí)勝誰(shuí)負(fù)早已確定。(吳小慶)</p>