破解集体行动的困境

姚广孝2019-03-18 14:17

 (图片来源:全景网)

规范与多人重复博弈

自利的本质被千百万年来的自然选择深深地烙在了每个人的基因组里。自私的人类如何在商业、政治和日常生活等领域达成各式各样的合作,一直以来都是思想家们努力想要回答的问题。博弈论里一个如今已经广为人知的结论是,一旦背叛的诱惑大于合作的奖赏,囚徒困境就会成为博弈双方不可避免的理性选择,这也成为了很多人论证利维坦之于人类社会有其必要性的重要理由。

转折发生在1984年,科学家罗伯特·阿克塞尔罗德在他那本划时代的名著《合作的进化》里,证明了在重复囚徒困境下,自私的人类之间也能够自发地达成长期稳定的合作关系,这个过程中并不需要额外引入绝对权威等因素对双方的行为进行约束或者担保。该结论一方面被第一次世界大战中敌对双方士兵的大量默契停火行为所证明,另一方面也在成千上万次计算机模拟中得到了反复的检验。

然而需要注意的是,阿克塞尔罗德在《合作的进化》这本书中证明的自发合作关系仅仅局限于两个人或两个群体之间。在人类社会里,更多情况下人们会结成三人以上的小群体,在小群体内部同时开展复杂的多方合作,在这个过程中,会产生一系列被统称为“规范”(norm)的东西。“规范”这个概念涵盖的范围很广,几乎可以指代一切没有绝对权威介入情况下,多方合作所达成的一致同意,在有的情况下是一些看不见摸不着的规矩,比如各类社会公德、文明规范和风俗习惯,在另外一些情况下则是看得见、有明确章程的组织,比如不同国家之间的防卫互保同盟、产油国组成的价格同盟,消费者协会、环保公益组织等民间自治团体。大家日常生活中最耳熟能详的“规范”其实是排队行为,在窗口、柜台等资源稀缺的情况下,一群人会自发地按照先来后到的“规矩”排成一个长队,从而避免将精力消耗在争抢行为中。

上述规范有一个共同的特点,那就是不需要政府等绝对权威为其效力背书。规范在一个群体内部自发形成,能被这个群体的各个成员共同遵守,让一群彼此独立的人或组织之间低成本地达成一致并实现有效的自我治理。然而纵观人类历史,各种规范最后的命运却大相径庭,有的得以维持多年而不倒,有的则会在产生后马上又以肉眼可见的速度归于消亡。早在二十世纪六七年代,托马斯·谢林等博弈论先驱就曾在数学上证明,多人博弈想要形成规范和维持规范,难度要远远超过双人博弈,随着博弈群体规模的扩大,那些在两人博弈情况下能够帮助达成合作的策略很快就会失去作用。

由此可见,对于多人博弈所达成的“规范”而言,消亡其实是常态,能维持下来反而是罕见情况。所以这里就要提出一个问题:规则需要满足什么条件,才能有长期维持下来的生命力呢?

元规范

让我们先从一个身边的现象说起。在职场中,站队表态可能是所有人都非常讨厌却又免不了要经历一两次的事情。几个人因为共同的理由而打算集体孤立和排挤某人,为此会结成一个攻守同盟。这个同盟最初可能只是办公室里的一个小集体,但不久之后,其他和这件事本来没什么关系的人就会在这个小集体游说的社交压力下,纷纷加入、共同进退,而一旦拒绝拉拢,就会被认为不识时务,被大部分人疏远。最后整个办公室会形成一个针对某人的强大集团,几乎没有人能够置身事外。其实不光是在职场,学校里也会出现类似的现象。一个班上经常会形成小帮派,共同孤立和欺负他们看不惯的同学,其他同学即便是顶住压力不加入这个帮派,至少也得在这个帮派欺负同学的时候一声不吭作壁上观。历史上,美国南方的白人也会形成这样一个歧视黑人的集团,白人甚至会在法律之外动用私刑来维持压迫。1930年,德克萨斯州的一位黑人攻击了白人妇女,这个行为激怒了当地的白人。他们袭击法院后抢出这个黑人,然后把他活活烧死。在这个过程中,一位白人突然于心不忍地说到“这不是一种耻辱吗”,可话音刚落就被其他人用饮料瓶砸倒在地,可见这样一个压迫集团是不允许自己的成员有任何异心的。

那么上述三个例子里有什么共同点呢?

首先,它们无疑都在形成和维护某个规范。在职场站队和校园霸凌的例子里,这个规范是对某个人的孤立,而在历史上的美国南方,这个规范是白人对黑人的压迫。规范一旦出现,就会对所有人形成约束,遵守“规范”相当于与群体里的其他人合作,不遵守则意味着对群体里其他人的背叛。

其次,惩罚是需要成本的。在一些场合,这意味着惩罚者需要付出精力和金钱,在另一些比较恶劣的场合里,这种成本则是惩罚者的暴力行为,而在稍微轻微的情况下,至少也会给惩罚者带来人际关系上的损失。拿校园霸凌这个例子来说,那些不愿意参与却又只能保持沉默的人失去了在公开场合对被欺负的同学表现善意的机会,增加了这些沉默者与被欺压者维持友好关系的成本。

最后,不遵守规范的背叛者会受到惩罚。这种惩罚并不来自于外部,比如说行政或执法部门,而是来自于群体内部,由群体其他成员执行。比如在职场站队这个例子里,没有人能轻松地当好好先生去两面讨好,那些不愿意站队的人同样会被小集团视为背叛,然后被小集团的所有人疏远,得到和那个被孤立者同样的待遇。

在阿克塞尔罗德看来,最后一点其实就是规范是否能够维持长久生命力的关键所在。他给第三个特点起了一个名字,这就是所谓的“元规范”(meta-norm)。它最简洁的表述是“把不惩罚视作另一种形式的背叛”。

这个发现是朴素而又深刻的。正因为惩罚需要成本,所以博弈集体中的每一个人都会出于自利的动机而避免去承担这个成本,期待集体里的其他人替自己付出。如果大家都有这个心态,时间久了,那些自愿维持规范效力而为集体付出的人就会越来越少,坐享其成的人则会越来越多,最终导致规范崩溃,只有当逃避维持规则的成本这一行为也受到惩罚时,规则才能足够健壮。

规范博弈的模拟

上述发现是否具有普遍意义呢?为了证明“元规范”是维持规范长期效力的必要条件,阿克塞尔罗德再次祭出了“计算机模拟”。这个研究利器曾在《合作的进化》一书所介绍的三场锦标赛中大放异彩,而它这次的表现同样没有让人失望。阿克塞尔罗德所用到的计算机模拟方法,其实就是预先设定好比赛规则和评分规则,然后在各种博弈策略之间开展若干轮的比赛,最终通过比较这些策略在多轮比赛后的总得分,从中找出若干相对优秀的策略出来。

在这次模拟中,阿克塞尔罗德首先假定存在一个团体,为了便于理解,我们可以想象这个群体是一个正在参加一连串考试的班级。团体内的成员都有一定的概率做出背叛团体的行为,背叛会让自己获利并使其他成员遭受损失,对应我们的例子,这个背叛行为可以是作弊,它会让背叛者获得高分,从而让其他人的成绩排名相对变低。另一方面,背叛也会被其他成员发现,这些成员在发现被背叛后有一定的概率施加惩罚,比如向监考老师举报,惩罚会造成这个背叛者蒙受巨大的损失,但由于惩罚是有成本的,比如被其他同学认为喜欢打小报告而看不起,所以施加惩罚的成员也会承受一定的损失。阿克塞尔罗德将某个成员发生背叛行为的概率称为“冒失水平”,将某个成员发现他人背叛后进行惩罚的概率称为“报复水平”。这两个水平可以动态变化,变化取决于成员们的收益。如果某个成员对自己背叛后遭受惩罚有着相当高的预期,认为获得的收益远远无法弥补,那么在下一轮博弈中,他的背叛水平就会下降;如果某个成员不希望自己因为惩罚他人而付出过多,那么他的报复水平之后就会下降,反之亦然。

阿克塞尔罗德希望在计算机里按照上述规则开展多次博弈,然后发掘出冒失水平和报复水平这两个指标在群体内的整体变化趋势。然而这一轮模拟的结果却令人失望,在五次模拟中共出现了三种完全不同的结果。在一次模拟结束后,整个群体的报复水平都变得非常高,冒失水平则非常低,这个结果表明群体内形成了一个很强的规范,大家都不太敢随意背叛。在另外两次模拟结束后,报复水平变得很低,但大家也普遍很自觉,冒失水平同样很低。而在最后两次模拟中,所有成员的冒失水平都变得非常高,报复水平却几乎为零,这说明没人再把规则当回事儿,也没人愿意为维持规则而付出,换句话说,群体的规则崩溃了。

上述五场模拟的规则完全相同,只有初始状态存在若干随机差异,然而结果却大相径庭。阿克塞尔罗德认为这意味着第一轮计算模拟所设定的规则没有制造足够的激励去惩罚背叛者,导致规则是否能长期维持变成了一件完全听天由命的事情。为此,他在第二轮模拟中引入了“元规范”。这轮模拟的大部分奖惩规则和计分规则和第一轮完全一样,唯独多出了这样一个机制:一旦某人背叛了集体,某个成员发现了这个背叛行为却没有出手惩罚,那么其他成员就会出手来惩罚这个没有出手的成员。这样一种机制高度符合元规范的定义,“把不惩罚视作另一种形式的背叛”,结果大家也许都猜到了,五次模拟得到了同样的结果,整个群体的报复水平很快就提升到了一个非常高的水平,同时大家的冒失水平大大降低。

那么在这两轮模拟中到底发生了什么呢?在第一轮模拟中,一开始整个群体维持着具有足够震慑力的报复水平,这时随意背叛会付出沉重的代价。然而惩罚某个背叛者无法得到任何直接的回报,还要付出额外的成本。另一方面,此时整个群体的冒失水平比较低,自己并不会因为被频繁背叛而产生危机感,于是群体的报复水平就会逐渐下降。当集体的报复水平下降到接近为零时,博弈者们就有一定的概率改变自己的策略,放心大胆地选择背叛,一旦出现这种情况,整体的冒失水平就会迅速上升,摧毁了前一个阶段所建立起来的相互信任的规范。

而在第二轮模拟中,整个群体则因为“元规范”的存在出现了适度而又稳定的报复心理,换句话说,每个成员都愿意对背叛行为施加报复,并且这种报复心理并不会因为背叛行为的减少而降低。而当所有成员都保持强烈的报复心时,任何人变得冒失都会得不偿失,于是整个集体变得自律,规则的效力得到了有效的保障。

阿克塞尔罗德通过计算模拟,证明一旦某个规范的背后有了“元规范”来保驾护航,那么群体成员就会有很强的激励去增加自己的报复水平,以免被别人惩罚,这就导致群体里所有成员的整体冒失水平大幅下降,背叛行为的成本越来越高。所以,多人之间的重复囚徒困境博弈依然有可能自发达成长期稳固的合作,这个秘诀就是在博弈中引入元规范。

搭便车

几乎是与阿克塞尔罗德同时,公共选择学派的重要代表,著名经济学家曼瑟尔·奥尔森在《集体行动的逻辑》一书中,针对集体行动的困境也做出了类似的深刻判断。所谓集体行动的困境,指的是一个群体虽然有着共同的利益,但却无法达成追逐这个集体利益的一致行动。最典型的例子就是某种处于垄断地位的价高质劣商品的全体消费者,尽管每个消费者都有提高商品质量的需求,但当其中一个人真的通过舆论、诉讼等各种手段成功达到目的后,他会发现自己在漫长的行动中付出的时间和精力,很可能远超这种商品的质量提升给自己带来的收益。另一方面,其他消费者从未出力,但依然可以由于这个较真消费者的努力而平白坐收好处。这就是经济学研究中的一个经典问题:搭便车。正是搭便车现象的存在,让消费者群体尽管在人数上远大于生产商品的企业,但很难形成与自己规模相匹配的行动力,这样就陷入了集体行动的困境。

与消费者群体这样缺乏行动力的集团形成鲜明对比的是奥尔森在书中着重介绍的工会。现代意义上的工会组织随着西方工业革命而出现,在欧美国家中有着悠久的历史和强大的生命力。这些如今面貌温和的组织在其诞生之初却是和暴力和强制紧密相连的,一个地区行业的工会,往往通过会员制来垄断该地所有同行业的劳动力,并通过暴力或者立法手段,使得非工会会员无法找到工作,同时这个行业的雇主也只能选择从工会雇佣员工,并接受工会规定的最低工资标准。工会在组织罢工与雇主讨价还价期间,会在工厂门口拉起一条纠察线,尽管任何人在法律上都有越过这条线的自由,可哪个工人胆敢真的做出这个举动,就会被视为侵犯全体罢工人员的利益而遭到殴打。正如亨利·乔治所说:“不通过暴力就不可能提高工资。可能是被动的暴力,也可能是主动的暴力,或者是保留的暴力,但一定得是暴力…告诉你工会只靠道德说教就能增加工资,就像告诉你老虎光靠橘子就能维生一样荒唐。”

强制手段是解决集体行动困境的一个简洁直接的办法,奥尔森将其归为“选择性激励”的一种,并认为后者可以在很大程度上解决搭便车行为。“选择性激励”这个概念指的是集团应该根据每个成员的贡献做出针对性的激励,而不是对所有成员不加区分。选择性激励可以是积极的,也可以是消极的。在前一种情况下,集体奖励那些为全体利益而出力的人;后一种情况下,集体处罚那些没有承担集体行动成本的人。在工会这个例子中,暴力作为一种消极性质的选择性激励,所起的作用就是在与雇主的博弈过程中,强制性地惩罚那些不愿意承担博弈成本的工人,最终让工人群体的整体利益得到保障。

奥尔森所说的选择性激励,与阿克塞尔罗德所说的元规范可以视为同一个硬币的两面。前者指出,如果一个集团放任内部白占便宜的风气弥漫,那么它的成员就很难为集团的整体利益出力,因此这个集团必须根据成员的贡献在激励上加以区分;后者则指出,如果一个集团没有某种机制对不愿意承担惩罚义务的成员进行制裁,那么这个集团的运行规则很快就会崩解,因此这个集团必须对那些不采取一致行动的人施加惩罚。

最后,让我们回到本文最开始提出的问题:规则需要满足什么条件,才能有长期维持下来的生命力呢?答案就是元规范或者选择性激励。阿克塞尔罗德和奥尔森的研究结果是一把利剑。这把剑是中性的,它一方面可以指导垄断集团建立起行之有效的行业攻守同盟,另一方面也可以帮助我们在运营业委会等民间自治团体时找到其效率低下的症结所在,更重要的是,它能让我们意识到追求社会正义是一件多么不容易的事情。回顾新闻,我们可以看到一个个孤胆英雄宁可付出巨大的精力,也要死磕那些卫生服务以次充好的酒店、消防措施形同虚设的物业和塑胶跑道污染超标的企业,这是违背人类自利本性的行为。我们作为几乎什么都没有付出,却因他们的努力享受到服务质量改善的普通消费者,应该对这些英雄怀有深深的敬意。