下拉查看目录

十分钟梳理《概率统治世界》

2017-02-22 徐冉 学习学习再学习 学习学习再学习




本文首发于微信公共帐号: 学习学习再学习(xiaolai-xuexi) 请注意: 无需授权即可转载; 甚至无需保留以上版权声明……


本文是《十分钟》栏目的第 31 篇。

由 徐冉 推荐。


《概率统治世界》

作者:戴维 · 汉德(David Hand)

出版社:电子工业出版社
ISBN:978-712-128-9026
版次:2016 年 8 ⽉
购买链接:http://t.cn/RJFfI3n


作者简介

戴维 · 汉德(David Hand)

特许伦敦帝国学院高级研究员。皇家统计协会前任主席;Winton(欧洲最成功的算法交易对冲基金之一)的首席科学顾问;畅销书作者,著有《信息时代:数据是怎样统治世界的》、《奇迹法则》。


推荐语

这本书强调概率中的最少且必要的知识,以及生活中反常识的现象,比如“热手信念”、“赌徒谬误”等等。对于想要学习概率的人来说,这是一本很值得阅读的入门书。

“The improbability principle” 在书中被翻译为“奇迹法则”,也就是这本书的核心 —— 看似极不可能的事情,其实是司空见惯的。

奇迹法则之下,又有几大分支:必然法则、巨数法则、选择法则、杠杆概率法则、够近法则。这篇文章在每个分支中,都有其概念、应用、总结,方便阅读。


概率从何而来

概率一词,历史悠久,非常重要,同时又容易搞混。事实上有很多意思与概率非常贴近的词,包括几率、不确定性、运气、命运、可能性、不可预测性、倾向…… 等等。

现在已知最早的随机装置之一是距骨,即动物的蹄骨或踝骨。古埃及墓冢中发现的图案,清楚地表明,当时的人会用距骨玩随机性的游戏,相当于骰子。不过,关于距骨不同面出现的频率几乎找不到相应的表格记录,而这恰恰是关键所在 —— 表格对量化概率而言至关重要,用数字记录每一面出现的几率。直到 17 世纪,绘制表格,这种方式才逐渐得以普及。

在 17 世纪以前,由于人们认为随机事件本质上是难以预测的,所以他们从未想到过概率是可以量化的。

比如,虽然我们完全无法预测单次抛硬币究竟会出现正面还是反面可是我们知道抛 1000 次硬币大约会出现 500 次正面。这是概念理解上的一大飞跃,可以与人类发现重力属于宇宙万有引力相媲美。由于这一飞跃幅度太大,即便是现在,也有很多人难以理解随机事件的某些性质。

抛一枚硬币,出现正面的概率,理应在 50% 左右,但前 10 次以正面居多,很多人便会觉得接下来应该反面出现次数更多,可事实并非如此,这种错误的理解非常普遍,甚至还有了一个专有称谓:赌徒谬误。 

17 世纪中叶之后的那段时期是概率论研究的转折点。在那期间出现了最早一批以概率为主题的著作。作者往往受到到赌博的启发。比如,荷兰科学家惠更斯的《论赌博中的计算》,意大利学者卡尔达诺的《机遇博弈》。

不过,赌博并非促使人类研究概率的唯一动力。同样是在 17 世纪伟大的数学家,莱布尼茨提将数字化概率用于解决法律问题。这一题看似合情合理,毕竟法庭判决经常使用,诸如合理怀疑,概然性权衡之类的词。

可惜,法律界的表现证明这场属于 17 世纪的概念研究革命至今未能完成,即便是到了今天,法院仍然极少采用正式的概率计算法。作者表示,美国法院在这方面要远远领先于英国法院。

帕斯卡的《沉思录》一书中指出,鉴于永恒的快乐,拥有无限大的价值,追求虔诚的生活才是理性的选择。这是因为即便虔诚生活带来永恒快乐的概率极低,这一小概率乘以无限大的结果还是等于无限大。

此外,迫切渴望了解周围商业世界,也激励人类进一步研究概率。

17 - 19 世纪全球化贸易的不断扩展,使得各个国家和私营企业想方设法应对船难,和其他无法预见的灾难。虽然保险可以弥补此类事故造成的损失,但前提是必须有方法能够计算这些不幸事情发生的可能性,其中一个办法就是回顾之前大量的船只航行记录,计算遭遇事故船只所占的比例。只有了解此类事件相对稳定的发生频率,就像抛硬币出现正面的概率是固定的一样,我们方能估算有多少比例的船只可以安全抵达目的地。

概率研究第一次兴起后,又过了两百年比利时统计学家阿道夫 · 凯特勒,通过将精算概念广泛运用到社会生活中,奠定了现代社会统计学的基础。


必然法则

如果你列出所有可能出现的结果,那么,其中之一肯定会发生。

股票线报欺诈

购买彩票所有可能出现的组合是一种利用必然法则赚取资金的方法;另一种相对更为“可行”的方法是利用股票线报欺诈。

假设每只股票每周涨跌的概率相同,那么凑巧预测对 10 次的概率是 1/2、1/2、1/2…1/2,一共 10 次,概率是 1/1024 —— 近似千分之一。

我会这么做 —— 给 1024 位无辜的受害者写信,并告诉他们我可以准确预测今后 10 周的某只股票走势。其中一半预测上涨,另一半预测下跌。鉴于股票不是涨就是跌,所以,将有 512 人能得到正确的预测结果。

接着,除去那些得到错误预测的人,专心应对那些得到正确预测的人。接下来的几周,如法炮制。

在这 10 周里,股票一共只有 1024 种涨跌组合,所以,在 1024 个人中,必然产生 1 位“幸运儿”,能得到全部正确的预测结果。这听上去似乎很了不起,不是吗?

当然,这类股票线报欺诈,不只利用了必然法则,还结合了选择法则。我们会稍后解释后者。必然法则,看似简单,且经常遭到无视,它却是其他法则的根基:一定会有事发生。


巨数法则 

只要机会足够多,任何离奇的事都有可能发生。20 世纪,英国数学家 J .E.Littlewood,这样写道:

既然有一辈子的时间可以选择,碰上概率为 1/10^6 的事,也算是稀松平常。

乐透彩票

乐透彩票就是巨数法则的体现。除非你可以购买大量的彩票,否则你中奖的概率极低。连中两次头奖的概率更是低到可以忽略不计。但 Evelyn Marie Adams 就在短短四个月中,中了两次新泽西乐透头奖。而 4 个月内中两次头奖的概率是一兆分之一。

巨数法则之所以能够解释乐透彩票,是因为新泽西乐透并非世界上唯一的乐透彩票,Adamas 也不是新泽西唯一的参与者。考虑到全世界彩票发行量、购买人数、售出数量以及开奖的周数,我们很快得到一个巨数。即使单一事件,发生的概率极低,只要底数足够大,该事件发生的概率就会很高。所以,某人在某时某地赢得两次头奖也就不足为奇了。我们甚至可以说,这种事早晚会发生。

圣经密码

据说希伯来《圣经》中能够预测未来的隐秘信息。

如《旧约 · 创世纪》开头每隔 50 个字母跳读,就可以拼出希伯来语“Torah”一词,意思是摩西五书。这一发现由来已久,在其他圣书也有过类似的发现,包括基督教和伊斯兰教经文。随着迈克卓思宁所著《圣经密码》一书的出版,人们对此现象兴趣激增。但事实上,这只是概率在发挥作用。

《圣经》是由很多字母组成的,因此可以找出很多有意义的组合。作者说,他可以用手指随便指出《圣经》中的一个字母,从这个字母开始,寻找各种不同的组合。如采用“等距离字母序列”法,只要每一页每一行的字母能够对其,就按照水平。垂直或者对角线方式,每隔几个字母挑出一个。潜在的序列和模式无限多,所以如果没有出现任何有意义的字母序列才怪呢。

作者出于好玩的目的,在写本书时,他留意了一下,发现在第二章中,竟然在“Than he could explain by chance”这句话中,每隔四个字母,出现了“help”这个单词。同样,在这一章前一部分里同样隐藏了“help”这个单词,而且也是相隔了 4 个字母。仿佛有人躲在书里,渴望获救。

数字命理学

“数字命理学”研究数字的神秘或者奇妙属性。遗憾的是,这只是无用功,因为真相泛善可陈,数字并不拥有这类属性。事实上,数字的真正定义及其唯一属性,就是大小。然而纵观历史,始终有人赋予数字以神秘的重要性。时至今日,我们仍有“幸运数字”一说。

数字命理学有很多例子以出现相同数字的巧合为基础的。不过前文已经提及,只要你仔细寻找的时间范围足够大,根据巨数法则,这种巧合理应出现。

以色列魔术师由里 · 盖勒对 11.11 这个数列非常痴迷。在“9 · 11”恐怖袭击中,他注意到一系列关于这些数字的巧合。如盖勒所言,这些巧合“离奇、诡异”,但原因恐怕并不会像他想的那样。他补充道难以理解怎么可能有人看到这么多巧合而不感到好奇。

可寻找数字组合及特定组合出现的场合意味着巨数法则能够进一步提升至无限巨数法则。显然,如果找不到这种组合,只能说明想象力的缺乏。你可以随便挑一个数字组合,然后使用 Google 搜索,就会发现很多很多类似的案例。

生日问题

生日问题是这样的:一个房间至少要容下多少人,才能使得其中两人同一天的概率超过 50% ?

结果相当令人惊讶,根据鸽子原则,只要随机抽取 23 个人,他们中同一天出生的概率就能超过 50%。我们看一下推算过程 ——

任意一个人和我同一天的概率是 1/365,因此任意一个和我不同天的概率就是364/365,假设房间有 N 个人,那么,其他所有(N-1)个人和我不同天的概率是(364/365)^(N-1)。N 是 23,概率就是 0.94。那么,和我同一天生日的概率就是 1-0.94,结果是 0.06。

但是,这么推算是错误的。因为生日问题并不是其他人和你同一天出生的概率,而是房间里任意两个人,同一天出生的概率。这包括之前我们推算的概率,还包括两个或者更多其他人同一天生日的概率。这样算的话,当 N 等于 23 时,两两组合的可能性一共是 253 种,而不是(N-1)种。

现在,我们先算一下,房间里的 23 人都不是同一天的概率)——

以两人为单位,第二个人与第一个人不同天的概率是 364/365,第三人与他们都不同天的概率是 363/365…… 依次类推,那么 23 个人生日都不是同一天的概率是P=(364/365)×(363/365)×(362/365)×……×(343/365)。

结果是 0.49。因此,至少两个人同一天的概率是 1-0.49,结果超过 50%。

巨数法则指出,只要机会足够多,我们就应该预期它发生,即使单独去看时,发生的概率极低。另外,比如生日问题,机会其实比我们预想的要多得多,因此巨数法则,也有着欺骗性。


选择法则

只要能等到结果出现,你就能知道结果是什么。

有一个老故事:你正走在乡间小路上,发现有很多靶子,每一个靶子中心都插着一支箭。你会想:哇,这主人一定是个射箭高手。你接着走,发现,一个人正在忙着给每支箭的周围画靶心呢。

这个故事说明,只要事后可以筛选,就能使得概率和事发之前截然不同。之前我们说的股票线报预测欺诈就是利用了选择法则。

梦境可以预测未来吗?

我们都有做梦的经历,甚至有些人的梦境在现实生活中还真的发生了。比如罗马大帝卡里古拉和美国总统林肯都曾梦见自己遭行刺。最终他们也的确是遇刺身亡的。这是怎么回事呢?

科学家说,每个人每晚至少会经历 4 到 6 个做梦阶段,大部分人根本不记得自己做的梦。大脑就是这么运作的,它不会记住每个梦境,因为这些梦只不过是无序的随机组合,没有任何意义。然而,一旦在现实生活中发生某些事情时,大脑就会将之前的梦境与现实联系起来了。

比如卡里古拉和林肯的梦境,在现实中竟然实现了。虽然这种巧合令人惊讶,但这并不能说明梦境有任何的预测能力。从概率上来说,除了少数梦见遇刺、结果真的丧命的人之外,还有数百万人做了同样的梦却什么都没发生呢。

后视偏差

我们刚刚说了解释了梦境是没有预测能力的,接下来再说一个和预测相对的概念,“逆测”。逆测的意思是,通过回顾已经发生的事,将当下的概率从不确定变成肯定。逆测中,常出现的一个现象叫做“后视偏差”。

什么是后视偏差呢?举个例子,在重大灾难发生后,人们往往问会问为什么事先没有预见灾难即将来袭呢?并列举出从一开始就出现的种种迹象。

问题是,事后将这些蛛丝马迹拼在一起,证明他们如何环环相扣,最终导致惨剧,这当然很简单。可在事发之前,有太多零散的迹象,这些迹象又有太多可能的组合方式,因此压根就不可能知道哪些事件是有关联的。

发表偏倚

科学杂志热衷发表试验成功的论文,而不是实验失败的报告。 这种现象有时候被称为“档案抽屉效应”(File drawer effect),是对未被发表的研究沦落到档案柜、不可能再被科学期刊发表的形象描述。

这也符合情理。发现某种药物具有疗效的研究,其本质上就比那些发现这种药物没有疗效的研究更加振奋人心。不过,现实情况却很复杂。测试药物需要多次试验。事实上,病人的严重程度会随着时间发生变化。一方面,即使该药物没有疗效,某些病人的情况也会出现好转,这纯粹是概率的缘故。另一方面,在部分实验中,药物看似没有疗效,可实际不然。

然而,随着发表偏倚发挥作用,描述实验结果的论文往往被编辑选中发表,但这个结果可能只是概率事件。有趣的是,那些发表过的“发现”后来常常遭到驳斥。

选择法则有不同的表现形式,比如通过事后再选择改变概率,再比如等待结果出现后再进行预测。它在科学中的体现为“选择偏倚”。除了发表偏倚之外,常见的还有退出偏倚(Dropout bias)、时间长度偏倚(Length-time bias)、趋均数回归等。只要熟悉了选择法则,就会发现日常生活中随处可见的例子。


概率杠杆法则

环境或条件的细微改变会导致概率发生巨大变化。比如,让极小概率变成极大概率。

我们在理解概率杠杆法则时,可以想一想力学中的杠杆原理——不同重量的物体如何做到在杠杆的两端保持平衡的。

突变论、多米诺效应和宇宙尽头

突变论指出,当一个系统受到轻微的干扰,状态只发生些许变化时,它被认为处于稳定状态。然而,某些系统,当条件发生轻微变化时,就会突然产生巨变。比如,加热和冷却一杯水,使水温在 1-10 度之间变化。这时,水只是温度发生改变,外界很难看出水量在增加还是减少。但是,如果将水温降到零下 10 摄氏度时,我们会发现,水结冰了。

另一个相关现象,还有多米诺效应(Domino Effect)。我们就不再说了。

究竟是谁的概率

Sullivan 是弗吉尼亚州的公园护林员,一生被闪电击中 7 次!而且不仅仅是 Sullivan,只要上网搜索,就会发现还有人曾多次被闪电击中。

其实,我们学过杠杆法则就可以解释,被闪电击中 7 次应该极为罕见事件,可如果你在雷暴天气时在公园游走,被闪电击中的概率肯定会增加。而且用普通人被雷连续击中 7 次的概率去计算公园看护人员的概率,会出现严重的偏差。这就是概率杠杆法则在起作用了。

轮盘赌的“好运气”

英语中有句俚语叫做“Break the bank”,意为玩家赢得的筹码超过台面上的总金额。这无疑是个罕见事件。但 1875 年,来自约克郡的约瑟夫 · 贾格尔就成为了这样的幸运儿。

赌场的概率计算建立在每个号码出现概率相等的假设上,所以当轮盘出现细小的偏差,使得每个号码出现的概率不再均等时,如果你知道具体偏差,就能占据优势。而贾格尔就是利用了这一优势。1873 年,他聘请助手收集赌场六个轮盘球掉落的结果。通过分析这些数据,他发现其中一个轮盘出现 7、8、9、17、18、19、22、28、29 这几个号码的次数比其他号码多。随后,他将筹码压在这些号码上小赚了一笔。


够近法则

够近法则是指,如果事件足够近似,就可以视作是相同的。换言之,只要是相仿,也可以看做是相同的,这样潜在的相同数量就会增加。

费马定理是真是假

我们在小学就学过毕达哥斯拉定理(又名勾股定理),由三个正整数 a、b、c 组成,满足 a^2+b^2=c^2。但在数学中有个著名的定理,费马最后定理(Fermat’s last theorem),认为当证书 n>2 时,a^n+b^n=c^n 没有正整数解。比如,没有三个正整数满足 a^3+b^3=c^3。关于这个定理其实有个很有趣的故事:

1637 年,费马在浏览古希腊著作《算数》时,在书的边缘写,自己能够证明这个定理,但是,留下的空间太少了,就不写具体的证明方法了。这可难坏了后来一批又一批的天才数学家。直到 1995 年,被英国数学家 Andrew Wiles 证明。

但是有个问题,如果费马最后定理成立,怎么解释 89222^3+49125^3 和 93933^3 都等于 828809229597*10^3 呢?这明显违背费马最后定理啊。

这是因为,89222^3+49125^3 和 93933^3 都约等于 828809229597*10^3 罢了。89222^3+49125^3 实际上等于 828809229597.17310^3;而 93933^3 实际上等于 828809229597.27310^3。通过放宽标准,我们可以找到此类看似符合条件的 3 个正整数,但这只是假象。费马最后定理依旧成立。

查尔斯狄更斯在小说《老古玩店》中描述吉特的母亲和芭芭拉的母亲初次见面时的对话场景,就堪称够近法则的完美案例。


人类心智

我们前面讲了很多奇迹法则不同构成和呈现方式,包括必然法则、巨数法则、选择法则、杠杆概率法则,和够近法则。它们之所以存在,就是因为我们并不了解大自然的运作原理。我们先从对概率的错误直觉开始 ——

检察官谬误

在庭审的过程中,检察官可能会告知陪审团,如果被告是清白的,那他的指纹就不太可能出现在罪案现场,既然事实表明现场出现了被告的指纹,就能证明他不是无辜的。但这样的推理是错误的,我们真正想要知道的是,在被告指纹出现在罪案现场的前提下,它属于估的概率,而是若被告是无辜的,那其指纹出现在罪案现场的概率,这两种概率可能大相径庭。

再举一个极端的例子,我们就能看出这种顺序颠倒引发的偏差。目前担任蓝筹公司首席执行官的多为男性,所以如果你是首席执行官,那么你是男性的概率就远大于 1/2。这与你是男性,同时又是首席执行官的概率完全不同,后者的概率肯定远远小于 1/2,因为只有极少部分男性,能成为首席执行官。

可得性启发法

通常都很容易,当很容易想到例子时,我们往往会高估概率。《思考快与慢》的作者丹尼尔卡内曼称这种现象为可得性启发法。

他举了一个很恰当的例子:他要求志愿者推断从英语文章中随机挑选一个词,究竟是 k 开头的单词出现概率高还是第三个字母为 k 的单词出现概率。结果人们倾向于选择前者,因为 k 开头的单词更多。事实上,这一篇普通的英语文章,中,第三个字母为 k 的,单词,是 k 开头的单词的两倍,问题在于,要想到第三个字母为 k 的单词难度更大。

而且这种可得性启发法更棘手的在于 —— 是否容易想到例子在很大程度上受外在因素的影响,比如媒体的头版头条。其实媒体报道可能是导致公众对犯罪率越来越焦虑的原因之一,即使犯罪率整体呈下降趋势依然如此。

寻求模式的心理需求

就算过去的经历让你自信了解此类事件,原则上来说,你可以准确估计事件发生的概率 —— 但实际情况往往更为复杂。

因为我们的记忆并非白纸或者电脑能够忠实地记录日常生活,相反既是一个动态的处理系统,会对我们的记忆加以观察、评估、筛选、加强、选择等等。而人们会下意识地只留下支持其信念的证据,无视相反的证据。

比如体育比赛和赌博中出现的热手信念。许多人认为在体育比赛中,连续命中球的球员在接下来的比赛中更可能获得成功。但是很多有实验结果表明,热手信念之所以持续,是因为连续投篮命中,比其他选项更容易让人印象深刻,所以观察者更可能高估,连续命中的相关性。

反馈机制

对某起事件或者某个现象的反映,影响其后来发生的概率,叫做反馈。经济波动就是这样。股价上升吸引更多人投资,从而将股价进一步推高,越来越多的人开始购买,股价继续水涨船高,直到有人觉得股价到顶,开始出售所持股票,股价略有回落,看到这种现象,其他人也开始出售持有的股票,价格进一步下跌,就这样,股市逐步陷入了低迷。

自证预言

反馈机制的表现形式之一就是自我实现预言。即相信某件事会发生,而会让人采取相应的行动,使这件事更可能发生。这一术语是由著名社会学家罗伯特莫顿创造的。他以一名焦虑的学生为该学生没来由地认为自己考试肯定会不及格,担心的时间甚至超过了学习的时间考试不及格当然在意料之中。

据说乐观主义者由于积极的心态,认为能遇到好事,所以更可能让自己置身于好事即将发生的情景中,当然,有人深信自己天生运气好,因此很可能找机会加以证明。

对概率的解读

人对概率的解读取决于其看事物的视角和方式。

假设有两种医学检测方法,一种准确率为 95%,另一种则为 96%,你可能觉得两种方法同样有效,但换个角度看,一种检测方法,无证 5% 的病人,另一种只有 4%,两者差异为 1%。换句话说就是第二种检测方法的误诊率比第一种少了 1/5,这样看来,第二种检测方法要比第一种有效多了。

同理,如果概率很小,那么即使是两倍的这一概率依然很小,假设某药品公司推广新药,10 万个人中只有一个人会出现副作用,而竞争对手的产品会导致,5 万个人中有一个人出现副作用。这种新药的副作用率,仅为对手的一半。还不错,不是吗?确实,但差异只有 10 万分之 1 ,这是个非常小的数字。生活中有那么多风险,这恐怕不是我们最为担心的问题,因此这个概率,几乎可以是忽略不计了,我们不用在乎两者风险率的差异。


生命,宇宙及万物

想象一下,你蒙眼睛站在在巨大的圆锥形山丘边缘。你的目标是登顶,但是,你并不知道前进的方向。你有三个选择:

第一,你让别人带你登顶。这其实并不算是方法,因为有他人存在,而且,他人还知道山顶的位置和登顶的方向。这就等同于“造物论”的解释。

第二,随便选一个方向,希望最后可以登顶。这就像是分子的随机排列,“凑巧”组成人体,这需要花费很长的时间,还未必能成功。

第三,这种方法稍微复杂 —— 也是随机选一个方向,然后留意你的高度是否增加了,如果没有就返回来,重新选择一个方向,一直重复,直到高度增加。然后再次重复刚才的步骤。

这个登顶过程并不是直线走,可能需要绕圈子,却能让你逐渐登山山顶。它是由很多小步组成的,每走一步,你所在的高度就会增加一点。数学家称这个过程为“随机最优化”(Stochastic optimization)—— 随机是因为每个方向都是随机选择的;最优化是指你正在逐渐接近目标。

我们将这个过程再次拆解,发现这种策略是由三部分组成的:

  • 每一步的方向都是随机选择的;

  • 需要走很多步;

  • 只选择能提升你高度的方向,即使提升幅度极小,你的下一步起点也会更高。

而正是这三个部分的生物进化过程,形成了生命和人类。


《十分钟》栏目投稿要求:

1

首先要确定这本书是不是足够好的书:

非虚构类;
译本;
作者有一定影响力;
能在美国亚马逊上买到 Kindle 版的书;
多次再版的书可能更好…

2

在缩写图书内容的时候,不应该掺杂个人的看法 —— 个人的读后感,可以放在最后,单独写个 200-300 字的推荐语。

3

选书非常重要。图书书名、作者、出版社、ISBN 都应完善。文章前面要有作者简介,要有图书购买链接,要有推荐语。

文章一经发表,即赠送精美礼物一份。

投稿表单:

http://t.cn/R5s8O16

或,长按识别以下二维码转至该表单……





长按以上二维码关注“学习学习再学习”(xiaolai-xuexi),后台输入关键字有自动回复:

输入“理财”,一篇文章推送:《理财系列文章列表(第一部分15篇);
输入“女生”,三篇文章推送;
输入“社交”,一篇文章推送;
输入“利息”,一篇文章推送;
输入“时间”,获得《把时间当作朋友》(第三版)全文在线阅读链接……
输入“分享”,一篇文章推送:《如何做好一场分享?》


评论