棘手的重复囚徒困境

2019-01-19 01:26

姚广孝

“针锋相对”

在“走出囚徒困境（上）”（本文上篇《在“每个人对每个人的战争”中生存》一文刊载于2019年1月14日出版的《经济观察报》第40版，可以直接关注公众号 “经济观察报观察家”阅读，编注）里，我们发现古往今来的众多学者对于人类能否跳出“囚徒困境”的诅咒都充满了悲观的看法，可是一战西线堑壕战里“圣诞停火”这种奇迹的出现，又证明人类在没有权威的情况下，其实是具有自发形成合作关系的可能性的。

为了彻底搞明白合作得以形成的深层机制，美国著名的科学家罗伯特·阿克塞尔罗德（2014年美国国家科学奖章NationalMedalofScience获得者，美国政府对外关系智库“外交关系协会”CouncilonForeignRelations成员）在1970年代向棘手的“重复囚徒困境”难题发起了冲击，并最终取得了重大突破。“重复囚徒困境”问题属于典型的“非线性复杂系统”，传统的归纳法和演绎法对其都束手无策。阿克塞尔罗德凭借敏锐的嗅觉，利用当时刚刚兴起的计算机技术，沿着“计算模拟”这条不同于归纳和演绎的新研究路径，举办了三场对后世影响深远的“重复囚徒困境博弈策略的计算机锦标赛”，几十个出自世界各地不同学科专家之手的博弈策略作为比赛选手，在既定规则下彼此展开了激烈的对决。这三场比赛的结果直接指向了合作产生的本质，“圣诞停火”的秘密就藏在这三场比赛的背后。

我们先从第一场比赛说起。参与这场比赛的14名专家来自心理学、经济学、政治学、数学和社会学5个不同的领域。每个专家贡献一个博弈策略，再加上阿克塞尔罗德自己加入的“随机策略”，共有15个选手参加第一场比赛。比赛由200个回合组成，每个回合里15个选手分别与包括自己在内的对手开展一次博弈。单次博弈是典型的囚徒困境，即“单独背叛的诱惑大于双方合作的收益”，每个选手会根据自己的既定策略选择“合作”或者“背叛”，两两组合就有“对方合作己方背叛”、“双方合作”、“双方背叛”、“己方合作对方背叛”四种结果，这四种结果的得分分别为5分、3分、1分和0分。200回合结束后，通过得分的高低，就可以评价不同博弈策略的优劣。

这15个策略来自不同领域的博弈论专家之手，复杂程度各不相同。有的策略非常简单，比如“针锋相对”（titfortat），这个策略在第一回合不管对手是谁，都会默认选择合作，之后每一回合的行动则仅取决于对手上一回合的表现：对手上一回合背叛，那么这一回合自己也背叛；对手上一回合合作，这一回合自己也合作。有的策略则非常复杂，比如一个名字叫做“唐宁”的策略引入了长期记忆，它会记住在比赛中遇到的每一个对手，然后分别为他们建立“个人档案”，记录下这些对手在合作后继续选择合作的概率，以及在背叛后继续选择合作的概率。对于任意一个对手，如果这两个概率相似，那么“唐宁”就认为它不在乎被背叛，于是会决定下次相遇后背叛它；如果两个概率相差较大，“唐宁”会认为对手是容易被激怒的，所以下次相遇时就选择合作。

哪种策略会在第一轮比赛里胜出呢？乍一看，“针锋相对”策略就像身边常见的“老实人”，和陌生人初次见面就信任对方，只有被骗后才会报复回去，对方认错后又马上揭过，憨厚、不记仇、容易吃亏；“唐宁”策略则像某些喜欢耍心机的“猥琐人”，先试探你好不好欺负，惹不起就装好人，惹得起就狠狠地占便宜。两者谁得分高似乎不言而喻，然而比赛结果却让包括阿克塞尔罗德在内的所有人大吃一惊：15个策略里得分最高的，恰恰是看上去头脑最简单的“针锋相对”策略；看上去狡猾的“唐宁”则连前8名都没排进去。

为什么会是这个结果？最直接的原因很简单：包括“针锋相对”在内的很多策略都不够“大度”，它们遭到背叛后都会选择报复，只是程度有所不同。既往不咎的“针锋相对”策略还算大大咧咧，另一个叫“弗里德曼”的策略只要遭到一次背叛就会永久报复下去，根本不管对方之后是否有主动示好的举动。在这种情况下，所谓“先撩者贱”，喜欢用背叛去试探对手的“唐宁”平均来看更容易招致报复，得分自然就更低了。

还有一个原因比较间接。观察了这场竞赛排名前8的策略后，会发现它们有一个共同的特点，可以称之为“善良”。何谓善良？一言以蔽之：从不首先背叛。每一个善良策略与其他善良策略之间是可以直接达成合作的，而且一旦合作关系建立，就可以永远合作下去，这样它们的集体得分就可以一直很高。这些善良策略之间相互合作、共同把对方一同拉入了整场比赛的前几名。

上面的分析告诉我们，在这场比赛里，“善良”相比于“狡猾”是一个更可靠的策略。那么在这8个善良型策略里，“针锋相对”策略又是凭借什么优势取得了最高的分数呢？这里可以提炼出另一项重要是指标：宽容。与大家预期中的恰恰相反，宽容度高的策略排名往往靠前。“针锋相对”只在背叛后惩罚对方一次，然后既往不咎，对方如果今后表现良好，那么双方就可以一直合作不断得分；作为善良型策略里最不宽容的“弗里德曼”策略，因为睚眦必报，因此很容易和其他策略陷入相互伤害而不能自拔，最终的得分也就在8个善良策略里排名最低了。

至此，第一次比赛告诉了我们如下事实：第一，绝不首先背叛的善良型策略整体得分显著高于会无故背叛对手的策略。第二，在善良型策略里，更宽容的策略排名更靠前，报复心更强的策略排名更靠后。

第一次竞赛的意外结果在学术界引发了热烈的讨论，阿克塞尔罗德借着东风很快举办了第二场竞赛，规则和第一次类似，只不过参赛选手的数量大大增加，多了一些来自计算机科学、物理学和进化生物学领域的新面孔。由于大家都知道上次比赛的结果，所以新比赛刚好可以检验第一次竞赛中“善良”的胜出到底是偶然事件还是必然结果。这次参赛的有62个策略，一些学者基于“针锋相对”提出了一些改进策略，新的策略比“针锋相对”还要宽容；另一些选手则为“针锋相对”量身打造了一套专门的应对手段，希望能从这个第一轮的赢家身上成功“揩油”。然而比赛结果再度让人吃惊，胜出者依然是“针锋相对”！而且和上次比赛一样，这次62个策略里得分前15名的基本上都带有一个我们熟悉的特点：善良；排最后15名的策略里则只有一个是善良型的策略，剩余的全都是喜欢故意背叛和试探对手的恶意策略。

通过第二轮竞赛，阿克塞尔罗德又发现了新的东西：任何对“针锋相对”策略的改进都不会带来更好的比赛得分。比如道金斯（《自私的基因》一书作者）的好友，英国进化生物学家约翰·梅纳德·史密斯在第二轮竞赛中提交了一个“超级宽容”策略“两报还一报”，它只有在被连续背叛两次以后才会报复回去。然而这个策略在62个参赛者里只排名24,造成这个结果的原因是第二轮竞赛出现了大量比第一轮竞赛里的“唐宁”还要狡猾的恶意策略，比如“检验者”和“镇定者”，它们有效地剥削了“两报还一报”这样太好说话的策略，这里限于篇幅不对其细节加以介绍，不过我们可以知道，一个策略如果表现得比“针锋相对”还要宽容，那么很容易被其他狡猾的策略加以利用；而过于不宽容的策略，比如前面提到的“弗里德曼”，也不如“针锋相对”的表现好。换句话说，“针锋相对”是所有善良型策略里最简单但也最优的解。

当“针锋相对”遇上“自然选择”

两次比赛已经足够说明“针锋相对”的优秀了，然而阿克塞尔罗德还不满足，他希望能在一个更加真实的环境里检验这个策略的稳健性。为此，他开展了第三轮竞赛。这次竞赛没有新的参赛者，但和前两次竞赛相比，这次比赛有一个根本性的不同：它引入了“自然选择”的环境压力，赢家获得的不再是简单的分数，而是更多制造下一代的机会。62个参赛者被扔给计算机，比赛依旧采取回合制，每一个回合结束后，每个策略都会被系统评估其适应性和能够产生的下一代数量。大多数策略在200代进化后很快销声匿迹，一些恶意策略尽管可以在开局时昙花一现，但随着它们能剥削的过于宽容的策略灭绝，它们也会马上跟着灭绝；然后，你没猜错，最终胜出的依然是“针锋相对”策略。

结论到此已经呼之欲出了：在“重复囚徒困境”里，“针锋相对”是一个最简单但也最好用的博弈策略；更难能可贵的是它还具有很强的生命力，一旦产生，就能顽强地生存下去，战胜其他想讨便宜的恶意策略。

这其实就是自然界和人类社会里合作得以广泛产生和稳步发展的深层原因。我们回顾一下第一次世界大战西线战场的双方士兵，他们建立和维持的正是这种“针锋相对”策略。从大的环境来看，每个基层战斗单位都会在很长一段时间里和同一个对方战斗单位沿线对峙，这就构成了经典的“重复囚徒困境”，合作也就有了环境基础。在战争后期，协约国和同盟国的军官为了破坏双方底层士兵达成的心照不宣的休战，就曾频繁地调换基层部队的防区，使得这种默契最终消失。再从细节来看，双方士兵都培养出了“不要挑衅”的习惯，为此还会贿赂己方的炮兵不对敌人动真格，这正是“针锋相对”策略的基本特点：善良。另一方面，这些士兵也不忘向对手传达自己想报复也有能力动手的信号，刚好也是“针锋相对”策略的另一个特点：自己虽然不会先动手，但一旦遭到背叛是有能力报复回去的。这种震慑能力保证了秉持“针锋相对”策略的选手不会遭到过分的侵犯，从长期来看使得合作关系更加不容易遭到背叛诱惑的破坏。

“合作的基础不是信任或者友谊”

1984年，阿克塞尔罗德对三场比赛的结果进行整理，出版了《合作的进化》，这本书为他赢得了巨大的声誉，也对数学、政治学和进化生物学等其他人文和科学学科提供了新的研究范式。著名生物学家理查德·道金斯在其名著《自私的基因》的第12章中，用大量篇幅探讨了自然界各种生物之间复杂到匪夷所思的合作行为是如何产生的，所参考的正是阿克塞尔罗德的分析思路。

在《合作的进化》这本书里，阿克塞尔罗德详细介绍了三场比赛的细节，然后从这些细节中明确总结了胜利者“针锋相对”的4个特点：善良性、宽容性、可激怒性和可预测性。善良意味着它从不首先背叛，可激怒性意味着一旦被对方背叛后就会施加报复，使得对方不敢继续坚持背叛，宽容性意味着能够在施加一轮报复后不记仇，马上恢复和对方的合作关系，无论对方背叛的动机是什么，可预测性意味着对于合作和背叛的态度足够简单，简单到让周围的参与者能一眼认出并对其开展评估。

在上述四个特性中，“可激怒性”的价值往往会被低估。文明社会的文化教育倾向于让人三思而后行，否则就会被认为是没有教养。但“易怒”既然被写在了人类的基因里，就说明它在生物的进化上是有价值的。事实上，在阿克塞尔罗德举办的两场竞赛里，不少策略都会在欺骗对手后观察对方的反应，根据反馈决定下一步的动作。如果一个参赛者对无理的背叛反应迟缓，实际上就在发出一种错误的信号，让对手以为背叛你可以得到好处。更严重的是，这种印象一旦建立起来，就很难被打破。所以如果被激怒，宁早不宜迟。“针锋相对”策略在遭受背叛后第一时间给对方下马威，对方瞬间就会明白背叛行为是没有好处的，这其实是一个有效的自我保护策略。

另一条容易被低估的特性是“可预测性”。和某些东方智慧所讲究的“刑不可知,则威不可测”不同，让自己的反应模式变得透明其实才是真正的“大智慧”。自己的处事规则只有足够简单，别人一眼就能读懂，同时理直气壮地告诉其他人“我是不可欺侮的，任何背叛都会导致我的报复，不会有任何例外”，才能避免不必要的试探。每一次试探都是欺骗，欺骗会招致报复，报复会给双方都带来损失。如果能让这一切提前避免，那何乐而不为呢？

最后，让我们再回到本文上篇提出的问题：“每个人对每个人的战争”真的是人类无法逃脱的诅咒吗？阿克塞尔罗德的研究对此给出了一份乐观的否定回答。这个研究的最迷人之处就在于不需要做出过多的假设。对于“重复博弈中的稳定合作关系如何达成”这个问题，我们无需假定参与者存在利他主义动机，无需沿着洛克等先贤的思路引入某个中央权威，也不需要像古典经济学研究一样要求“理性人”的强假设，甚至并不一定要加入“语言沟通”这个条件。相反，它可以是经验、试错性质的，只要内有不断学习的机制，外有生存环境的选择压力，再加上一点能够识别和记忆其他参与者的能力，那么这种合作自发出现和主动扩张的过程就可以不断地在纯粹自利的参与者群体中上演。上到人类社会的进化，下到细菌的繁衍生存，从自私自利转变到互利互助的逻辑都是一以贯之的。按照阿克塞尔罗德的话来讲，“合作的基础不是信任或者友谊，而是关系的持续性”。说白了，产生合作所需的条件其实很简单，只要关系可以持续，那么合作总是有很大的概率发生，“每个人对每个人的战争”并不是必然的。

余论

阿克塞尔罗德的三场竞赛是使用新工具研究旧问题的典范。

提出“每个人对每个人的战争”这类社会契约的洛克、卢梭和霍布斯等人，尽管都是人类思想史上的佼佼者，但他们受限于技术，只能在逻辑上演绎政府如何起源，在他们所生活的年代，历史学说天然面临着验证困难的问题。学者们可以对人类政府的起源提出一万种不同的假说，然而历史只有一次，人们无法从大量的重复样本中归纳出可靠的结论，所以演绎法就成为了理所当然的选择。20世纪出现的计算机模拟在传统的归纳和演绎之外开辟出了第三条道路，一方面和演绎一样，始于某些简单清晰的前提，但并不去证明定理，而是让结果在前提的约束下，通过大量的模拟“自然”地产生；另一方面，产生的模拟数据可以用于归纳和分析，但和传统的归纳法又不一样，模拟数据来源于“干净”、“简单”的计算模型，不像真实世界观察到的数据一样容易受到干扰，所以更容易提炼出一般性的结论。在这种新研究方法的帮助下，阿克塞尔罗德面对霍布斯等人几百年前所面对的问题，得出了不一样却有着足够说服力的结论。1980年代后，阿克塞尔罗德将上述方法应用到经济学“搭便车”现象、社会学的文化进化、历史学里国际联盟的产生等新课题上，让“合作的进化”学说在更多领域绽放出了耀眼的光芒。