以贝叶斯定理修正决策权重

2025-06-05 14:38

由英国科普作家汤姆·奇弗斯所著的《贝叶斯定理》揭示了贝叶斯定理的本质:它不仅是概率论领域的一个重大革新,更是帮助我们在不确定性中清晰思考与决策的科学工具。贝叶斯定理能够让我们持续更新认知,动态调整决策,量化不确定性因素,打破经验迷信,区分能改变的和不能改变的,保持内在稳定,接纳必然的不确定性。

《贝叶斯定理》的原书名直译为“凡事皆可预测”,但所有预测都存在一个问题,即结果的不确定性。所谓的贝叶斯定理,其实是一个简洁的等式。它根据已知信息估算某件事发生的概率。具体来说,它是一种条件概率。公式中的竖线“|”是“在此情况下”或“以此为前提条件”的简写,P(A|B)则指“在事件B已经发生的情况下,事件A发生的概率”。


提出贝叶斯定理的是托马斯·贝叶斯,他是一个生活在18世纪的英国长老会牧师。他生前写过一本神学书,以及一本分析牛顿微积分学的书。在他去世后,他的朋友理查德·普赖斯发现了他的一些论文以及一些未完成的笔记。对其整理之后发表在英国皇家学会的《自然科学会报》上,其内容就是贝叶斯定理。

贝叶斯定理表达的是一种概率论。它不仅能够帮助我们分辨推理中的谬误,还能告诉我们某些更深刻的东西。其中的“相反”往往是问题的关键,即一个巧合的概率有多大。其实,这是一种类似“反概率”的问题:概率论关心的是给定情况下可能会发生什么,而不是已经发生了什么。

贝叶斯定理代表了理想决策,决策能在多大程度上遵循贝叶斯定理,决定了该决策在多大程度上是一个正确的决策。人类似乎就是一台贝叶斯机器,我们的大脑、感知似乎都是通过“预测世界-先验概率-通过感官获得新数据-更新自己的预测”这种方式工作的。我们对世界的意识体验似乎就是最佳的先验概率。

■ 罕见的事情的确会发生

现代概率论的肇起于17世纪时的布莱斯·帕斯卡和皮耶·德·费马之间的通信。他们讨论了“分赌注问题”,即赌博中断时如何公平分配赌注。他们通过计算玩家获胜的概率,确立了期望值的概念,为概率论的发展奠定了基础。而瑞士数学家雅各布·伯努利则将概率论的发展推向了新阶段。伯努利通过数学证明,抛硬币的次数越多,其分布越接近“真实”概率。根据对整体的认知情况推测个别事件的概率,就是“概率推断”;而根据抽样调查的结果推测整体的情况,就是“统计推断”。

伯努利发现,我们永远不可能百分之百确信自己的结论就是真实答案,只能尽可能地接近真实的答案——不同结论具有不同的置信度。概率不仅存在于游戏和赌博中,人类其实每时每刻都和概率打交道,比如判断谋杀案的凶手时需要分析概率,研究文件是否经过伪造时也要分析概率。虽然我们永远都不可能确切地知道任何事情,但我们的确知道不同的事件有不同的概率。但是,奥布里·克莱顿在《伯努利的谬误》中认为,伯努利所讨论的的是“抽样概率”,而不是“推断概率”,他没有将两者区分开来。

亚布拉罕·棣莫弗是一名来自法国的新教徒,他成功地将伯努利的理论向前推进了一步。不过,他关注的并不是数字大小,而是曲线形状。抛硬币的次数N越大,曲线就会越清晰。与其费力地用公式去计算抛100次硬币出现6次正面的概率,还不如去分析曲线的数学表达式,然后利用该表达式来计算某种结果的概率。这条曲线就是著名的“正态分布曲线”,也就是“钟形曲线”。伯努利只发现了样本量越大,结果越精确;而棣莫弗则更进一步,实现了理论的量化。

有一个与贝叶斯同名的人,即托马斯·辛普森在1755年发表了一篇分析天文学观测误差的论文。他认为,我们应该使用所有观测结果的均值,而不是“亚里士多德均值”——最大值与最小值加起来除以2。利用大数定律的某个特例,他成功证明了自己的观点。辛普森关心的是“如何根据已经得到的结果推算某个假设成立的概率”,而不是“如何根据已经构建好的假设推算出现某个特定结果的概率”。这就是所谓的“分析推断”。这个伟大的尝试,使得统计学终于脱离了“赌场老手的数学游戏(或赢钱秘诀)”的范畴,成为一种有着广泛意义的推理工具。

贝叶斯在给辛普森论文审稿时就开始思考“统计推断”,或者说“反概率”的问题了。在贝叶斯看来,概率只是“世界不为人知的那一面的一种描述方式”。也就是说,概率是一种主观的东西,是人们对未知领域、对真理的最佳推测的一种表述。如果有100万颗红球全落在了左侧,那么根据贝叶斯理论,下一颗红球仍然有可能出现在右侧,其概率为1/1000002。每一条新信息都能让我们更接近“100%的把握”,但我们永远不可能真的达到“100%的把握”。

贝叶斯去世后,为他整理论文的理查德·普赖斯可谓是世界上“第一位贝叶斯主义者”。他试图将上帝从大卫·休谟的手中拯救回来。休谟认为,再多的证据都不能让人相信世上的确发生了违反自然规律的神迹。休谟的观点本身是一个概率问题:我们这一生几乎从未看到过违反自然规律的事情,却见证了太多的谎言。然而,普赖斯却认为罕见的事情的确会发生。即使你已经看到了100万次太阳升起,看到了100万次浪起潮涌,你也不可能百分之百确信这种事情还会继续发生。同样,就算我们一辈子都没见过死人复活,也不能百分之百地肯定它永远不会发生。

将伯努利、棣莫弗和辛普森三人的研究成果综合在一起,就可以得出,在测量过程只存在随机误差、不存在系统误差的情况下,如果我们对某个事件进行大量观察,其结果会趋向于分布在真值附近。真值即真实值,在一定条件下,被测量客观存在的实际值。贝叶斯进一步证明,如果我们事先对真值进行预估,得出其最有可能的先验概率,那我们就可以利用它和观测结果做出推断——围绕发生的事情建立一个合理假说。

真正将概率论和统计学应用到社会科学领域的人是比利时数学家阿道夫·凯特勒。他对统计学的主要贡献在于他提出了“平均人”的概念。他为人口不同特征设立了不同的数轴。他发现,诸如身高、体重、力量等数据大都呈正态分布。人们的身高、体重、力量甚至自杀等行为倾向,都是由许许多多微小的影响造成。它们通常不会都对结果造成正面影响,也不会都对结果造成负面影响,而是二者皆有。所以人们的身高、体重、饮酒情况等特征才会集中在全部人口的均值附近,呈正态分布。然而,他没有意识到很多数据并不呈正态分布,错误地将所有数据都纳入正态分布的范畴。

■ 贝叶斯定理:从结果走向假设

尽管贝叶斯们为概率统计的发展做出了重要的贡献,但在日常工作中,统计学家、科学家并不会使用贝叶斯定理,因为他们大多数人都属于所谓的频率学派。频率学派所做的事情刚好与贝叶斯学派相反。贝叶斯定理能够带领我们从结果走向假设,即如何根据已经得到的结果推算某个假设成立的概率;频率学派则是从假设走向结果,即如何根据已经构建好的假设推算出现某个特定结果的概率。


贝叶斯所谓的“先验概率”是指根据以往经验和分析得到的概率。这本质上是一个哲学问题:我们判断具有主观性。“先验”描述的并不是世界本身,而是我们自身的已知和无知。贝叶斯理论似乎在告诉我们,某件事是真是假,取决于一开始我们对它的信念有多坚定。如此,概率最终是主观的、个人的,而不是真实的、客观的。频率学派兴起的原因,似乎就是对“主观性”的厌恶。

频率学派涌现出两位著名的统计学家——卡尔·皮尔逊和罗纳德·费希尔。皮尔逊提出了“卡方检验”理论,帮助数学家判断数据样本是否符合正态分布,还是符合其他什么分布。此外,他还是“标准差”这个词的创造者。费希尔则是20世纪统计学领域的领军人物。他创造并改进了大量统计工具,其中有许多一直沿用至今。他为方差分析建立了各种数学模型;提出了“统计显著性”的概念;发明了“最大似然估计法”,帮助大家判断哪种数据分布假说能够对研究数据给出最佳解释。

“似然”是费希尔创造的一个术语,最大似然估计是根据已知实验数据判断哪种假说,最有可能产生当前的实验结果。比如,“硬币被动过手脚,每次有80%的概率朝上”这个假说比“硬币是公平的”,这个假说更容易产生“抛了10次硬币,其中有8次正面朝上”这个结果,两种假说的似然比大约为7。最大似然估计只是帮助我们比较,哪种假设更容易产生当前的试验结果,但它不能告诉我们哪种假设更有可能成立。

但皮尔逊指出,最大似然估计本身属于贝叶斯理论的范畴——假定每种假设具有相等的先验概率——然后给出在了(在该假设之下)最大似然估计是错误理论的证明。然而,费希尔从内心深处讨厌贝叶斯主义,皮尔逊也不认同把概率和主观扯上关系。关键的问题集中在“如果我们不知道哪种结果最有可能发生,那我们就应当认为它们发生的概率相等”这个观点之上。

约翰·斯图尔特·密尔曾批判过贝叶斯定理。他在1843年写道:“只知道两件事必有一件发生,但无法确定哪件事发生,不足以说明两件事发生的概率相等。我们必须用经验事实去证明两件事发生的频次相等。”密尔认为,“概率只是我们对自身的无知的一种描述”这种说法非常愚蠢。在他的观念中,概率反映的世界的真实状况,即事件发生的频次。经验表明,只要抛硬币的次数足够多,正面朝上和反面朝上的次数就差不多;而且抛的次数越多,正面朝上和反面朝上的次数就越趋近于相等。

如果用一句话来描述贝叶斯学派和频率学派的分歧,大概就是这样:贝叶斯学派认为概率是主观的,是人类对这个世界的无知程度的一种描述;而频率学派认为概率是客观的,是我们对大量实验中某个结果出现的频次的一种描述。

贝叶斯学派在相当长的时间内都处于弱势,而以罗纳德·费希尔、卡尔·皮尔逊为代表的频率学派已经逐渐成为科学家、统计学家的标准学说。虽然对贝叶斯理论感兴趣的人越来越少,但它并未就此消亡。在某些问题上,它仍然是唯一的统计方法,而费希尔本人也同意这一点。

剑桥大学地球物理学家哈罗德·杰弗里斯是早期贝叶斯主义科学观的关键人物,他认为“贝叶斯定理之于概率论,就如同勾股定理之于几何学”。1926年,杰弗里斯发现地核是液态的——上地幔主要以硅为核心元素的石头构成,地核主要由铁元素和镍元素构成。他试图利用各个地震台探测到地震波的时间,来确定震中的位置,以及地震波穿过物质的性质。但地震是一个相对罕见的现象,即便探测到数据,其中也会掺杂大量干扰数据,整个过程充满了不确定性。因此,只能据此得出一些初步性结论,然后再根据新信息一步一步地更新、更正结论,这一过程依据的不再是“不确定性”,而是“置信程度”。换句话说,这一过程就是贝叶斯式的。

当每次获得新信息时,杰弗里斯都会更新自己对假设的先验置信度:“每次科学进步都是先从完全无知开始的,然后随着证据的增加,逐渐建立一个越来越有说服力的假说,直到其置信度达到一个可以接受的水平。科学不确定的那一部分,恰恰是其最有趣的内容。”他认为任何事情都存在不确定性,哪怕科学定律也不例外。他认为所有形式的不确定性都可以用概率来描述。贝叶斯学派终于得以重整旗鼓,其中有很大一部分原因是杰弗里斯的那些方法论几乎像民间偏方一样流传了下来。

■ 贝叶斯定理教会我们行事

如果将贝叶斯引入投资,我们可以看到,巴菲特的投资组合策略与贝叶斯定理有着密切的联系。巴菲特的投资策略强调集中投资,即选择少数几家具有强大盈利能力和明显商业特许权的公司进行投资。这种策略与贝叶斯定理中的理念不谋而合,即基于先验信息和最新证据来动态调整投资判断。

贝叶斯定理是一种概率推理方法,它允许根据新的证据或信息更新对某事件发生的概率估计。在巴菲特的投资决策中,先验概率可以被视为基于公司历史表现和财务数据的评估,而新证据则是关于公司最新业务发展、市场反馈和管理层决策的信息。

巴菲特的投资方法的核心是,如果一家公司已经显示出强大的竞争优势和稳定的盈利能力(高先验概率),那么任何关于公司未来表现的新信息(似然概率)都可以用来更新投资判断,从而得出更有信心的投资决策(后验概率)。这种方法与贝叶斯定理的核心概念——根据新证据更新概率估计——是一致的。通过这种方式,巴菲特的投资组合得以构建在具有高度确定性和可持续性的企业上,这也正是贝叶斯定理在投资决策中应用的魅力所在。

在《巴菲特的投资组合》一书中,罗伯特·哈格斯特朗指出,贝叶斯定理教会我们一种逻辑分析方法,即为什么在众多可能性中只有某一种结果会发生。从概念上这是一种简单的步骤。我们首先基于所掌握的证据为每一种结果分配一个概率,当更多的证据出现时,我们对原有的概率进行调整以反映新的信息。

其中最好的案例就是巴菲特对可口可乐时的推理过程。巴菲特很早就接触可口可乐,从儿童时就积极从商店购进可乐并销售出去赚差价,一直到购买可口可乐股票的前夕,可口可乐都未曾离开他的视野。

当时可口可乐因多元化导致公司业务分散,低效资产过多拖累主业,且竞争对手增长强劲挤占其市场占有率,业绩和股价都持续低迷。由于可口可乐有着相当长的经营历史可查,以及近百年的数据汇聚起来的业绩频数分布图,因此虽然公司经营不善,但其公司的品牌和价值仍在。这是推理过程的第一步。巴菲特注意到公司新任的管理层正在做一些提升公司价值的事情,这些事情提升了公司升值的概率:如卖掉经营不佳的企业,主动退出非核心业务。并将出售业务所得重新投入核心业务也是更赚钱的业务中。推理的第二步让巴菲特知道公司的业绩和财务状况凭借新任管理层的运作即将好转。可口可乐的管理层在改善运营的同时还积极地回购公司的股票,从而进一步增加企业的经济价值。 这是推理过程的第三步。   

在这三步的分析中,每一步都会使得投资可口可乐盈利概率的增加。巴菲特分析时的这些信息并非同时出现,而是渐进式的。因此根据贝叶斯定理的原则,每一步出现的信息都会导致确定性概率的增加,让投资的风险降低的同时提升预期收益率。

正如巴菲特所总结的:“投资本质上是概率游戏,贝叶斯教会我们如何用新信息修正无知。” 这种动态认知更新能力,正是其穿越经济周期的核心武器。查理·芒格也曾总结道:“贝叶斯定理教会我们,智慧的本质是承认无知——当你获得新信息时,要有勇气说‘我之前的结论有X%可能是错的’。” 这种动态认知修正机制,正是他们超越市场平均收益率的底层逻辑之一。贝叶斯定理就是“过去经验”加上“新的证据”得到“修正后的判断”,即用经验修正理论。贝叶斯主义的首要目标是分辨出有用的模型。

如今,贝叶斯主义在经济学中已经变得越来越无所不在了。不过,统计学家伦纳德·萨维奇在《统计学的基础》中指出,只有在“小世界”中运用贝叶斯决策理论才是理性的。而宏观经济学和高级金融的世界最不可能是小世界。大小世界的区别很重要,在小世界里,人们可以藉由追求期望效用的最大化来解决问题;而在大世界里,人们实际生活在其中。

在这个复杂的宇宙中,没有任何认识是确定无误的,无论原因是现实的物理本质、经验数据的欠缺、混沌现象的存在,还是我们在计算能力上的限制。查尔斯·达尔文早就断言,那些因缺陷而无法繁衍的物种不可避免走向灭亡,因此,在至今仍然存活的物种中,重大缺陷极少。理论也是如此。所以,我们需要沉浸在激情、着迷和疑问之中。