多一些量化,少一点高谈

韩明睿2022-07-05 23:54

韩明睿/文

我们每天都能在各种媒体上读到大量时评,其中有不少不但对所评论的事件作出解读,还有或明或暗的预测含义。例如对于俄乌冲突,我们可以听到的论调包括“这场战争会让欧洲各国更加团结”、“普京在国内的权威将被削弱”、“俄罗斯可能会动用战术核武器”等等。颇有一些评论员或所谓专家(pundits)以提出此类预见为生,甚至名利双收。政府、企业的内部研究部门以及智库的一些报告也有预测的成分。

其中很多预测(如果确实可以叫做预测的话)往往有几个问题。一是,模糊不清、无从证伪。欧洲如何才算“更加团结”,如何不算?普京在国内的权威倒是勉强可以用支持率来衡量,或者视其将来会否失势,但考察的时间段应该有多长?一个月?一年?十年?假如三年后普京仍然大权在握,当初做出预测的专家也可以辩称不是不报,时候未到。俄罗斯动用战术核武器的可能性有多大?从7%到70%都可以说成是“可能”。评论员和专家们做出的预测,其结果本来就很少被回溯记录,“怎么也错不了”的模糊预测就更谈不上有什么意义。二是,对于存在正反两方面因素的问题,只强调其中一面的一种或多种因素,乃至串接起来讲一个连贯流畅的故事,并以此简单外推,自信满满地做出看似必然的预测。这样的预测者似乎意识不到,由于存在实际或潜在的相反因素可能起抵消作用,事态未来的发展几乎总有一定的不确定性,他们也更不会用不同的概率去刻画不确定性的大小。三是,夸大近期事件的重要性和特殊性。似乎每一两个月都有一条新闻能让评论者们惊呼“一个时代结束了”,就连没有多少实际效果的事件也能说成是“释放了重大信号”。而如果历史上的同类事件其实并未引起划时代的变化,本次事件也可以找点理由用“这次不一样”的说辞来挖掘出一些好像史无前例的意义。

这些也许是媒体评论与生俱来的问题,也可能是自古以来政治、经济、商业等领域有“建言”涵义的文本的原罪和通病。任何人只要回顾过专家们的过往言论,都很容易意识到,这一现象普遍存在。但直到20世纪八十年代,学界还极少有对专家预测准确度的系统性评估,更没有研究者凭此在学术圈外产生影响——直到心理学家菲利普·泰洛克开始着手探究。长达二十年的研究之后,泰洛克在2005年出版的《狐狸与刺猬 :专家的政治判断》中,用如今已成经典的一个比喻总结了自己的发现:“专家预测的平均准确度大致和掷飞镖的黑猩猩相当。”2011年,他的研究方向转移到如何做才能比专家们预测得更好的问题上。这一阶段研究生涯的成果集结于2015年出版,次年被翻译引进国内,即《超预测:预见未来的艺术和科学》一书。

这几年间泰洛克主要的工作,是与研究伙伴同时也是其妻的芭芭拉·梅勒斯一起运作的“精准预测项目”(GoodJudgementProject)。项目组是参与美国情报高级研究计划局(IARPA)发起的国际事务预测竞赛中的五个团队之一。IARPA组织这项竞赛活动,是因为意识到美国各家情报机构共约两万名分析师并没有产出多么精准的预测,至少没有能配得上每年几十亿美元开支的成绩。未能预见到9·11事件就是一个惨痛的例子。根据竞赛规则,五个参赛团队可以自选方法,在指定的同一时间对同样的问题给出预测。另外,情报机构内部有权接触机密信息的一些情报分析师作为对照组也一并参与进来。四年时间里,IARPA提出了近五百个关于国际政治经济的问题。最终,精准预测项目团队的成绩不但以几十个百分点的优势胜过了来自学术界的其他几个团队,甚至还优于能拿到机密情报的官方分析师。而泰洛克团队中最出色的预测者们绝大多数并不是社会科学家、智库研究者、媒体评论员之类的职业或半职业人士。他们来自各行各业,有工程师、律师、金融从业者和学生,还有一些只是很有闲的退休人员。泰洛克将他们称为“超级预测家”。他们的作为就是“超预测”。

既然作为门外汉的超级预测家们在自己并无专业背景的领域中成绩如此出色,或许首先应该看看专家们犯下了哪些错误。专家们的优势是在本专业领域积累的大量知识、吸收的最新信息,但未必能避开一些普通人都会掉入的思维陷阱。

和普通人一样,专家们在预测时其实高度依赖直觉。作为几百万年进化史给予我们的礼物,直觉在一些需要简捷感觉的情况下有其作用,例如躲避危险或提供灵感。但在必须深思熟虑后做出研判的情境下,直觉往往并不可靠。而历史上专家们的直觉预测又很少接受系统性的检验和反思。例如,人类直到一个世纪前才真正意识到,应该用随机对照试验来衡量医药的有效性。而在此之前,放血之类的疗法已经被世界各国的医生自信地使用了几千年。

直觉做出判断时,会以手头现有的信息为基础,快速得出结论,不怎么会考虑信息是否可靠、充足,反过来还会形成已经通晓全盘的错觉。丹尼尔·卡尼曼在《思考,快与慢》中将此称为“所见即是全部”(Whatyouseeisallthereis)。直觉在事前预测中是如此,事后解释也一样。对于要复盘的结果,直觉会驱使大脑用当前可得的信息尽快拼凑出一个相对简单和确定的解释,而不是耐着性子追寻更复杂、幽微的成因,或者给出多种可能的解释,又或者让人承认事出纯属偶然,包括自己在内没人可以预见。这样,大脑就能满足于后见之明带来的秩序感和自信心,不会由于疑点和不确定性而不得安宁。如果事态发展又有自己参与,那就更是这样了。古罗马仅次于希波克拉底的医学权威盖伦相信,只要病人得的并非不治之症,他都能治好。如果患者接受治疗后痊愈,那当然是拜他所赐;如果不治身亡,那是因为病入膏肓,不能说明他医术不精。当今不少专家屹立不倒,靠的也是类似的逻辑。

预测时另一种常见的心理谬误,是将有难度的原始问题,不自觉地转换为与之相关而又较为熟悉或较易回答的另一个问题。泰洛克将此称为“诱惑与转换”(baitandswitch)。例如,预测一场战争的结果时,在脑中将需要深入研读各路信息才能尝试回答的谁胜谁负的问题,悄然转换为“我信任的权威认为谁会获胜”甚或“我希望谁会获胜”,下意识地用后面这些问题的答案作为替代,来回答前一个问题。这也就是为什么我们经常可以观察到,战争双方的支持者对战局的预测总体来说并非随机分布,而是都对各自支持的一方更为乐观。

喜欢看专家点评的读者也许会为他们鸣不平:“我觉得某专家看得挺准的呀。他说A和B事件很可能会发生,后来果然都发生了。虽然他可能上回C事件没说对,但总不能因为一次失误就全盘否定他吧,又没有人能次次神准。”这么说的问题在于,这种逻辑可以成为任何一个只是在跳大神的预测者的“免死金牌”。人不可能次次押对,也不可能回回皆错(否则将其预测反过来用,照样可以封神)。如果有一点正确的预测记录就能当“先知”,这也未免太廉价了点。

更有甚者,有的专家压根不承认自己预测有误,事后依然振振有词地声称,事态发展都在掌控之中。1984年,苏联正值年老体衰的契尔年科当政,情报界开始讨论其后继者及可能的政策走向。美国国家科学院下设的一个理事会邀请了包括“情报分析师、军官、政府官员、军备控制专家和苏联问题专家”在内的多位专家来研判,泰洛克也在其中。专家们都认为苏联将与美国进一步对抗,只是专家们中的自由派和保守派出于自己的一贯认识,分别给出了不同的理由。次年3月,契尔年科去世,戈尔巴乔夫上台,启动国内改革,并力图实现美苏关系正常化,与各路专家们此前预料的完全相反。但泰洛克发现,“不久之后,大多数未能准确预测苏联局势的专家又开始确信自己完全知晓苏联剧变的原因和未来趋势”。他开始意识到,“无论发生什么,这些专家都会熟练地淡化自己预测的错误,并且讲出一段历史,以表明他们一开始就预见到形势的变化。”很难不联想到的是,更“高明”者还可以两面下注,说“一方面……有可能……另一方面……所以也有可能……未来局势如何,我们还将拭目以待”,这样就不怕以后被翻记录,可以立于不败之地。

如果让专家们在预测时给出概率,是不是更“科学”一些?是的,但还不够。试想一个预测者在2016年美国总统大选前,对克林顿和特朗普获胜的可能性分别给出80%和20%的概率。既然后来是特朗普胜选,能不能说这一预测失败了?不能。因为概率为20%的事情发生,也并不稀罕。能够真正有效检验预测者能力的是,让其做出大量概率预测,观察其中预测概率为80%的事件实际发生的频率是否足够接近80%,对预测其他概率值的事件也以此类推。假如某人预测概率是80%的事件只有一半左右真的发生,那么他显然不是一个多么出色的预测者。

另外一重考虑是,能力更强的预测者应该更敢于做出接近100%或0%的预测,例如给出很多八九成或一两成的预测概率。毕竟,事后来看,每个事件只有发生与否两种结果。全知的上帝就可以只做出是/否(即100%或0%)的完美预测,哪怕预测的事件是每一次掷硬币是否正面。而凡人对此能做到的最好也只能是永远给出50%的猜测。上帝预测100%会发生的事件会100%地发生,凡人预测以50%的概率掷出的硬币正面,也确实大约一半的情况下会是正面,但神与人的能力当然不能相提并论。

于是,我们可以用气象学家、统计学家格伦·W·布莱尔(GlennW.Brier)提出的,结合了这两方面因素的“布莱尔得分”来为预测者评分。正是应用布莱尔评分,泰洛克完成了职业生涯第一阶段对专家预测的研究。有意思的一点是,他极力邀请当时最炙手可热的评论家们参加试验,但没有一位愿意。同意参加的284人来自政府、学界、媒体、国际组织等领域。试验结果上面已经提到过:专家们的预测总体来说和随机猜测差别不大。后来的“精准预测项目”同样使用了布莱尔评分,在近三千名志愿者中发现了几十位超级预测家。并且他们的成绩并不是来自运气。就好像每年都有对冲基金大幅跑赢大盘但一两年后便风头不再,而巴菲特却基业长青。超级预测家们作为整体,在一年又一年的竞赛中不但没有出现均值回归,反而扩大了对于普通预测者的领先优势。

超级预测家们为何如此超级?按常理推测,他们应该远比我们博学和聪明。在知识和智力测试中,他们倒也确实比大约80%的普通人得分更高。但这一点充其量只是必要条件,并不充分,因为其他两千多名志愿者的得分也不差,高于约70%的普通人。单就智商而言,大多数超级预测家并不在人群总体的前1%之中,也不高于通常被认为是天才门槛的135。他们的杀手锏,是独特而有效的思维方式。

首先,把大问题分解为小问题。读者可能听说过一些据说是谷歌公司面试题的题目,例如“请估计芝加哥有多少位钢琴调音师”。事实上,“调音师问题”是物理学家费米用于考验自己学生的题目。一般人被问到这个题目,可能蒙圈之后只能瞎猜一个答案。但并非没有更合理的推测方法。这个问题可以分解为4个子问题:芝加哥的钢琴数量、每架钢琴每年需要调音的次数、每次调音需要的时间、每位钢琴调音师每年的工作时长。其中每个子问题又可以按需进一步分解,如芝加哥的钢琴数量问题可以分解为芝加哥的人口数量、钢琴数量与人口总数之比两个问题……直到每个问题都可以给出一个简单数字,然后组合、计算出最终的答案。当然,分解到底之后,其中很多子问题或孙问题也只能依靠常识或直觉猜测出一个粗略值,让人怀疑它们重重组合起来,最终答案是否会误差过大,与实际值相差好几个数量级。不过超级预测家们的经验表明,在大量信息缺失的情况下,费米预测法是唯一称得上有理有据的预测方法,并且预测值往往与真实值相当接近,对于“调音师问题”之类的难题完全可以落在同一数量级上。另外,严格执行费米预测法,也可以避免“诱惑与转换”陷阱。

其次,采用“外部视角”确定基准概率后,再使用“内部视角”微调。外部与内部视角的区分也来自于卡尼曼。外部视角将事物或事件放在同类之中,考察其普遍性;内部视角则关注其特有的细节。普通人容易从一开始就落入内部视角而无法自拔,被淹没在众多其实并不影响大局的细节中。前文提到的专家们“夸大近期事件重要性和特殊性”的倾向,主要原因也在于此。合理的做法是从外部视角开始,根据历史上的同类事件锚定统计学家所称的“基本比例”,例如预测未来一段时间某两国爆发武装冲突的可能性时,先从过去多年两国交战的频率简单外推,暂定一个基本概率,再切换到内部视角,考虑两国关系近况较以往有何变化等事实,适当地上调或下调概率,可能既根据某些因素上调几个百分点,又基于另一些反向因素向下做些调整。这样达到的判断不太可能像电视等媒体上常见的评论那样,认为局势总在千钧一发之间,自然也就不会犯下危言耸听的错误。需要注意的一点是,外部与内部视角都可能不只有一个。不同的预测者或许会将同一个事件放在不同的类别中,进而基于不完全一致的外部视角,得出并不相等的基本概率。内部视角也可能因为在诸多细节中的侧重相异而产生或大或小的调整。超级预测家们所擅长的就是保持谦逊和开放,运用多种视角,认真对待他人的不同意见,质疑自己的暂时性判断,发现考虑不周之处时修正。也因为此,成员组成多样化,尊重彼此的独立判断,习惯建设性地相互质疑的预测团队,准确率比单打独斗的预测者要更高。

预测不是一劳永逸之事。即便做出预测时已经考虑到了所有重要因素,第二天也可能出现新的关键信息。敏感的预测者应该根据最新信息及时更新自己预测的概率。超级预测家们平均的更新频度也的确比普通预测者们高很多,从而更为准确。

显然,出现新的信息而需要更新预测时,会在两个相反的方向上有犯错的可能:要么不够重视新信息,反应不足;要么对新信息想太多,反应过度。大多数人更容易犯的错误是前者。社会心理学界早就认识到的一个事实是,让人们承认自己过去的看法不准确并及时纠正,实在有违本能。并且,当初表达看法时越坚定、大声,后来就越不容易松口。所以,经常抛头露面发表意见,声望大过天的专家们,咬紧牙关说“事情还没完,得走着瞧”,或者找出各种借口说自己其实没看错,都是常态。更何况,人们的判断往往受意识形态的影响,意识形态又与其自我归属的群体紧密相连。大幅改变在一些事情上的看法,可能会动摇人的心理认同,以及所在的圈子对自己的评价。这可不是一般人能承受的,专家们也不能免俗。而反应过度的典型例子,是散户在股市中频繁交易,原因在于他们把噪音误判为了有效信息。

超级预测家们则会在通常情况下,通过多种视角暂定下初始概率后,随着新信息接二连三到来,频繁、小幅地修正预测,但在“发现预测与实际情况存在巨大且不断加大的差距”时,也敢于质疑自己的根本前提并推倒重来。要达到这种境界,没有一个万能公式可供套用,只有谦虚开放的心态、对数字的敏感较真、长期的实践训练、及时明确的反馈、认真的复盘和自省,以及由此而来的接近于手艺甚至艺术的良好感觉,才能帮助预测者最好地把握更新预测的尺度。

本书及其背后的“精准预测项目”,是长期以来不满于专家预测的有识之士们最近十几年里掀起的预测革命的一派分支。考虑到官方机构的支持和泰洛克对超级预测家们的激赏中毫不掩饰的精英主义倾向,或许可以说,这是“在朝”的一派。而“在野”的,就是更倚重于“群体智慧”并激励人们积极发现信息的预测市场(predictionmarkets)了。预测市场和期货市场的运作机理相仿,参与者们交易合约,到期交割,只不过标的物不是商品、证券的未来价格或指数,而是未来某个时点特定事件是否发生或发生概率,特定事件发生的时点(如L5级即全自动驾驶汽车何时出现),抑或某一时点特定数值的大小(如截至2022年末全球猴痘确诊病例数)。另外,有些预测市场的筹码不是真金白银,而是声誉积分(reputationpoints)。时下最红火的预测市场之一Metacu-lus,还有泰洛克差不多在本书出版的同一时间创办,试图用以发掘更多超级预测家的“精准预测公开赛”(GoodJudgmentOpen),采用的就是积分制。

近年来,多个预测市场蜂拥而起,但泰洛克并不是眼馋了也要分一杯羹的后来者,他很早就是这一理念的积极拥趸。2008年,此前、此后的诺贝尔经济学奖得主肯尼斯·阿罗、保罗·米尔格罗姆、托马斯·谢林、罗伯特·席勒、弗农·史密斯,以及包括卡斯·桑斯坦、哈尔·范里安在内的著名学者共19人,在《科学》杂志上联合发文,陈述预测市场对社会的益处,呼吁法规松绑,鼓励市场建设。泰洛克也名列此文作者栏。不过预测市场并非《超预测》的主题,所以泰洛克在书中着墨不多,主要写到的是,在一次预测实验中,预测市场的准确率仅次于超级预测家团队,高于所有个体预测者的简单平均值,也高于组团的普通预测者。是次实验中的市场并不大,流动性有限,无法与当今愈发成熟的各大市场等量齐观。我们也不要忘了,实验中赛过市场的超级团队,预测能力是人类已知的顶尖水平。可见预测市场的潜力并不容小觑。超级预测家和预测市场也并不对立,前者完全可以在积分制市场中训练、孵化,最终再凭借历史战绩浮出水面。

理想情况下,量化预测可以化解相当多无谓或无望的反复辩论,只要争论各方愿意也敢于洗尽修辞的铅华,做出明确预测,留下可追溯的公开记录。针对各类问题更准确的预测,无疑也有助于政商界领袖更好地决策。预测市场的思想先驱,同样也是《科学》杂志那篇文章作者之一的罗宾·汉森,甚至设想了一种他称之为“未来决定制”(Futarchy)的治理机制。在其中,特定问题上拟议的各项政策对未来社会福利的影响,将由预测市场里相应的市场“价格”给出估计,表现最佳者予以通过实施。这个听上去天马行空的设想,业已融入一些区块链社区的治理架构中。也许对我们这些普通人而言,预测市场的实际应用前景还太遥远,自己成为能战胜市场的超级预测家的可能性也不大,但我们至少可以从泰洛克这本书得到启发,看穿一些所谓专家的夸夸其谈,用更有效的思维方式武装自己,穿行于当代社会的信息密林而不致迷失。