摘自《戏说统计》——李连江
推荐语:读之有深悟,强烈推荐,需要耐心细品,有心者切切记之!
马克思主义哲学活的灵魂是具体问题具体分析。这句话,大学哲学考试及格的朋友都能记得,但大约也只是记得而已,不会认真琢磨“活的灵魂”是什么意思。活的灵魂,一是有确切的内容,否则称不上灵魂;二是活生生,不死板,否则就只是供瞻仰的偶像,供使用的标本,供宣扬附和的教条。活的灵魂,既是“禅”,也是“参禅”,还是“禅悟”,是三者的“三位一体”。统计分析也有活的灵魂,就是正态分布。
作为统计分析活的灵魂,正态分布既缥缈又灵活,很不容易把握,有三个特点。第一,正态分布描述的是总体,总体是无限的,一时数不清,永远数不清。即使总体已经封闭,作为认识对象仍然永远开放。例如,恐龙的总体已经封闭,但恐龙研究永远开放。第二,正态分布描述的既是静态也是动态,既是剖面,也是过程;单个正态分布是剖面,如果把多个正态分布图叠加起来,这些正态分布图的高度(平均值)与坡度(标准差)的变化描述的是变化过程。第三,正态分布是个筐,可以装三类物品:(1)单个变项(个体的属性)的实际值;(2)抽样误差;(3)概率的指标值。正态分布的这三个特点,使它既是世界观,也是思维方式,还是人生智慧。
一、世界观:万有不齐天地事,大道之行是中庸
重复一句,正态分布,英文是normal distribution,我觉得译成“正常分布”比较好。正态就是正常状态,正常就是自然,自然就是天成。远观宇宙万象,中观万事万物,近观各色人等,我们看到三大趋势:一是万有不齐,二是静态趋中,三是动态平衡。
第一,万有不齐。启功先生有副对联:“万有不齐天地事,一无可寄古今情。”例如,人与人不齐,先天的各种禀赋,身体的如身高、体重、速度、体力、耐力;智力的如理解力、记忆力、分析力、计算力、推理力;心理的如耐心、恒心、平常心;在人群中的分布都不齐。表面属性不齐,内心更加不齐。万众一心,只是掌权者的幻想。庄子故作惊人之语,说万物齐一;孟子实事求是,承认万物不齐。假如这个世界是齐的,那认识世界就很容易了,因为认识了任何一个人就等于认识了全人类。然而,世界是不齐的,万有不齐,是正态分布世界观的第一个核心内容。
正态分布世界观的第二个核心内容是“大道之行是中”。无论观察哪个属性的分布,都可以看到多数人平平,聚集在平均值周围,远运高于平均值的人很少,远远低于平均值的人也很少。动态看,越靠近普通平凡,人数越多;离平平越远,人数越少;趋向杰出不凡,人数越来越少;趋向低差末流,人数也越来越少。“物以稀为费”,是片面真理,巨人固然稀少,侏儒同样稀少。两头小,中间大,万有不齐,主流平平,是自然的分布,正常的分布,就是术语说的正态分布。
正态分布的第三个内容是动态平衡。正态分布有高度,即平均值的个案数;平均值是个点,偏离平均值,一端滑向低于平均,另一端滑向高于平均,坡度或陡或缓,但永远不平。不平,就无法站稳,只能在动态中求稳。这是就一个个体而言。总体的状况,也是动态平衡。例如,中国人的年龄是正态分布,近年发生的“老龄化”就是正态分布的形状发生了改变。
强调正态分布是世界观,有三层意思。第一,世界本来如是,不以人的意志为转移,如是观之,就是实事求是。第二,正态分布是诸多世界观的一种,是精微、科学、通达的一种。世界是一,世界观是多。讨论世界本身究竟是什么样子,有趣,但可能无用。永远有用的,是我们相信世界是什么样。不论什么世界观,只要有人信,对这些人就有用。当然,对一些人有用,对另一些人可能无用,甚至有害。地心说是一种世界观,日心说是一种世界观。二者相比,日心说更符合事实,但这并不意味着地心说就只能进入垃圾堆。我们在日常生活、文学艺术中说旭日东升,夕阳西下,仍然是地心说。第三,选择世界观,主要对专门从事认识的学者、科学家有意义。科学研究不能停留在常识水平。正态分布是数学家直觉到的概念,先悟出来,然后推理出来。说它是世界观,就是承认它像孔子、老子所说的“道”、佛教所说的“禅”、基督教新约所说的“太初有道”的道。正态分布图,就像基督教的十字架、道教的太极图、佛教的万字图,是观察、理解、参悟的对象。信徒参透了这些神圣符号的含义,就掌握了信仰的核心。正态分布有接近常识的一面,也有超越常识的一面。常识能帮我们应对日常生活,但不能助我们深入准确地认识世界。超越常识,意味着把正态分布变成自己的思维方式。
二、概率思维方式:万事皆可能, 无物是必然
正态分布是概率思维方式。概率思维跟日常思维不一样。我们似乎生活在一个很确定的世界里,是就是,不是就不是。日常思维是确定的,要么真,要么假,真就是真,假就是假。学生去上课,不会想到教学楼有可能塌。与日常思维不同,概率思维认为世界是不确定的。以概率思维方式看世界,没有百分之百的确定性,每栋楼都有可能塌掉,只是塌掉的概率不一样,绝大多数楼塌的可能性很小,小到我们忽略不计,习以为常,如果不发生地震,根本意识不到。
概率思维方式有三个要点。第一,概率是可能性,与现实不同,现实是已经实现了的可能性,二者有质的不同;可能性与不可能也不同,不可能是逻辑荒谬,例如圆的方。
第二,万事皆可能。任何事情都可能发生,只是可能性有大有小。尚未发生的,过去可能发生,未来可能发生。覆盖着各种可能性的正态分布,是个盖不严的天罗,理论上一网打尽,然而是开放的一网打尽,钟形曲线的两端总是开放的。这种不穷尽,是真正意义的一网打尽。天网恢栋,疏而不漏,不漏,就是因为开放,一张永远张开、无限向四面八方延伸的网,当然不会有遗漏。如果天网确定、撒实,那就一定有漏:今天撒实,就覆盖不住明天才出现的新现象。理论上,人的身高是从无限趋近0到无穷大。吉尼斯纪录,记录的是实际观察,不是实际发生,更不是可能发生。
第三,无物是必然。已经发生的并非必然发生。概率思维不承认必然规律,不承认绝对真理,承认“上帝掷骰子”。任何假设,可能真,可能假。我们可以非常有信心拒绝一个假设,但我们永远也不知道它到底是真是假。理由是,我们是根据样本推断总体,但我们永远得不到一个完美的样本。不管抽样怎么科学,都不可能抽到一个百分之百代表总体的样本。我们只能做出尽可能精确的埃菲尔铁塔模型,但不可能做出完美模型。概率的思维方式是承认没有绝对真理。可见的只有样本统计值,总体参数永远不可见,只可根据样本统计值推测,猜测的准确度永远达不到百分之百。每猜必中,非神即妖。温馨提示:第四章会谈到,关于犯一类错误(弃真)的风险与犯二类错误(纳伪)的风险之间的关系,经常发生的误解是二者的总和必为百分之百,此消彼长,一一对应。发生这个误解的根源,是没有真懂正态分布,没有形成概率思维方式,仍然习惯于非黑即白的日常思维方式,非对即错。在统计分析中,对错永远是相对的。
三、人生智慧:安于平平,追求不平,适可而止正态分布蕴含了丰富的人生智慧,最重要的是三条:安于平平,追求不平,适可而止。
第一条,凡是不能凭一己之力改变的,务必安于平平,这一条最重要。人世间,平平者最多。平平者是主流,突出者是少数。每一个禀赋,如颜值、身高、体力、脑力、心力,在人群中都是正态分布;多个禀赋的组合,例如才智与相貌的组合,在人群中也是正态分布。天道无私,人有其长,必有其短;有其短,必有其长。勿以其长自傲,勿以其短自卑。没有十全十美的人,是因为全才不合乎自然,所以有天妒英才之说。天赋如此,后天条件也如此。人生可取之物,从衣食住行条件,到品阶、地位、名誉,都是正态分布。人人都有无数个属性,在一个属性上分布不佳,会在另一个属性的分布上得到补偿。多数人各方面都平平,少数杰出人物多个方面平平,这是自然,不足为虑。少数在单属性或属性组合上幸运高配的,一不应沾沾自喜,因为并非自己之功;二应该谨慎努力,不可浪费自然的赏赐,暴殄天物是罪过。人生的关键是发现和发换正态分布对自己有利的属性,躲避和弥补正态分布对自己不利的属性。
第二条,追求不平,我们可以靠后天的努力提高自己在社会的相对地位。不足追求平平;平平追求卓越。正态分布是个富有张力的分布,它的每个点都是相对的,都靠比较来界定。测量智商,表面是测绝对的智商,其实是比较,是找一个人的智商在人类智商正态分布图上的相对位置。衡量相对位置的标尺,归根结蒂是发生的概率,例如,智商等于145,意思是高出平均智商三个标准差,意味着千里挑一。后天努力在人群中也是正态分布,勤奋、灵活、创意、运见、格局,都是正态分布,这些正态分布是个人努力的空间。
正态分布的张力,体现在平均值与标准差上。可以说,平均值和标准差是驱动人生的两条鞭子。这两个概念逼迫你跟其他人比,让你不能满足于只跟你心中的绝对标准比。平均值是悬在我们头顶的一条皮鞭。如果别人用人生的各项重要指标的平均值猜我们,每猜必中,那我们活得就未免过于平庸。活出精彩,活出特色,就是有点出人意料之处。颜值低于平均值,不妨在其他方面出人头地。比如,貌不出众,饱受无视,然而,一语既出,四座皆惊。这反衬效果,一下子就会把你的“显著度”推到三个标准差之外,当然,是往平均值的右侧推。标准差是另一根鞭子。你参加了两次考试,满分都是100分,第一次考了60分,第二次考了85分。哪次考得较好?如果从绝对标准看,当然是第二次,更接近满分。但是,如果用平均值和标准差来衡量,就不一定了。比如,第一次考试全班的平均分是30分,标准差是15,你考了60分,高于平均值两个标准差,标准值等于2,也就是说你是全班成绩最好的百分之三,你很厉害。第二次考试全班的平均分是70分,标准差也是15,你考了85分,高于平均值一个标准差,标准值等于1,也就是说你是全班成绩最好的百分之十五,没什么了不起。
考试是这样,做其他事也是这样。我们每个人一辈子都在跟平均值和标准差打交道。平均值让我们不甘落后。达不到平均值的时候,不甘落后,希望达到平均值,跟上大流,关心自己离平均值还有多远。达到了平均值,就希望超过它,不甘心平庸,不满足于平平,怕被人说平平,因为平平就是庸碌。所以说,标准差让我们不随大流。超过了平均值以后,愈发可能不甘于平庸,于是关心超过了多少个标准差,关心把多少人甩在了身后,怕被赶超。远远超过了平均值,又怕被嫉妒,担心“木秀于林,风必摧之”。在日常生活中也好,在学习和工作中也好,最难判断的就是我们的相对位置,而平均值和标准差可以帮我们确定自己的相对位置。在这个意义上,我们关注平均值和标准差,就是希望知道自己在这个世界上的位置,也是希望改变我们的地位。人生的苦闷在于,无论我们做什么,都既纠结于平均值,也纠结于标准差。
正态分布的张力,亦即平均值和标准差这两条鞭子,决定了人生的路虽然众多,但轨迹只有三条,方向只有两个。以平均值为原点,从标准值0出发,第一条路是原地踏步,平平来,平平去。这条路看似平坦,其实难走,是一条似有若无的线,走钢丝,既需要把持自己的定力,也需要维护自己的实力。世上充斥着各种奇形怪状,时刻发生着种种匪夷所思,都在无声证明着平平的宝贵。平凡,是个可贵的品质;正常,可以是自然,可以是幸运,也可以是伟大成就。
第二和第三条路都是偏离平均值,不过方向相反。第二条路是由平均值向左侧偏离,顺坡而下,进入夹在平均值与标准值-1之间的宽阔草场。这个地带,占正态分布全疆域的34.13%,坡度平缓,慢慢下行。这个地带相当舒适,比上(平均值)略有不足,比下绰绰有余。滑出这个舒适区,就进入了夹在标准值-1与-2之间的狭长地带,占正态分布全疆域的13.59%,下行坡度变陡了,大有一失足成千古恨之势。继续滑,进入夹在标准值-2与-3之间的夹缝地带,占正态分布全疆域的2.15%。奇妙的是,这时下滑的坡度又变平缓了!实际风险剧增,但反而不再让人觉得危险。最后一步,是落入标准值-3以外的深谷,仅占正态分布全疆域的0.13%。更加奇妙,这时不仅下滑的坡度平缓舒展,而且永远延续;深谷永不见底,然而宛如平地。
从平均值出发的第三条人生路径,是往右行。这条路径,一迈步,就遇到一大惊奇。原来,在概率的正态分布图上,这条路貌似顺坡而下,实为逆势而上。在这里,概率的正态分布图掩盖了人生智慧最关键的真相。为了展现真相,我们可以对概率的表现形式进行改造。
改造方法是把概率转换成发生率的自然对数(logit)。Logit的分布图如下。

这个右侧改头换面的概率正态分布图,精准描绘了人生从平均值出发的第三条路径。由平均值出发,右行,貌似下行,实为爬坡,进入平均值到标准值+1的高原草场。这个地带也相当舒适,比上不足,比下有余,唯一的缺点是比较拥挤,人多嘈杂。继续攀爬,勇敢闯出舒适区,就进入了夹在标准值+1与+2之间的狭长地带,占正态分布全疆域的13.59%。这里上行坡度变陡,是竞争的场地,越临近标准值+2,竞争越激烈,让人产生一失足成千古恨的戒惧。不畏艰险,继续攀登,进入夹在标准值+2与+3之间的夹缝地带,它只占正态分布全疆域的2.15%,是强者的战场。奇妙的是,这时上升的坡度变平缓了!剑客们出手招招狠辣,剑锋直指咽喉,然而外表彬彬有礼,反而不让人觉得危险。最后一步,是登上标准值+3以外的巅峰,只占正态分布全疆域的0.13%。此时,不仅上行坡度平缓舒展,而且永远延续;山外有山,天外有天,然而让人觉得如履平地。上升固然永无尽头,下滑也不过是稍事休息。至于这里究竟是高处不胜寒,还是一览众山小,还是二者兼而有之,我没有体会,不妄自推测。我有体会的是从平均值出发,到右侧大约第三个标准差的过程。在这个过程中,追求卓越,要克服同伴压力。标准差就是同伴压力,告诉我们离平均值有多远。我们不妨把平均值想象成长江的中心,偏离平均值一个标准差,还是主流;偏离两个,就是支流;偏离三个,就快到岸边了。有一年温总理开记者招待会,说“行百里者半九十”,现场翻译译成:Half of the people who have embarked on a one hundred mile jour- ney may fall by the wayside (大意是:你跟一伙人走100里,走到90里,同行的人只剩下一半)。这个翻译引起了争议,有人说,行百里者半九十,意思是,走100里路,走了90里,只是走了一半。不过,现场翻译的解释更适合帮助我们理解标准差。季羡林先生有句名言:世间的学问,学好了,都有用,学不好,都没用。什么叫学好?学好就是周围的人少了。学到一定程度,周围只有三五个人了,那你很了不起。学到一定程度,周围还有三百万、五百万人,没什么了不起。标准差就是个标杆,告诉我们距离平均值有多远,抛离了多少同伴。从平均值出发,往右走一个标准差,你超越了34.13%的同伴,走到第二个标准差,你只能再超越13.59%,走到第三个标准差,你超越的更少,只有2.15%。这是自然的,你不能有任何抱怨。标准值是相对位置,也是同伴压力,标准值越高,同伴越少,但每个同伴释放的压力越大,因为竞争对手实力更强。这是无可奈何的事。苏轼感慨“高处不胜寒”,就是这个意思。独步古今,独孤求败,现实中有,但概率极小。
正态分布蕴含的第三条人生智慧是适可而止,就是承认自己有极限,一方面努力突破极限,另一方面适时接受自己的极限。现实永远有余地,不绝对,永远不是100%,所以,留有余地是人生智慧,不要“身后有余忘缩手,眼前无路想回头”。“比上不足,比下有余”是常态,也是成就。追求是人为,人为可以在一定程度上逆天,但永远不可能胜天,要适可而止,否则可能遭天弃,甚至遭天谴。宋人方岳诗云:“不如意事常八九,可与语人无二三。”这两句诗很容易引起共鸣,因为它们说的是人生常态。所以,人生的智慧在于准确判断自己,欣然接纳自己。
总而言之,正态分布就是正常分布,正常分布就是自然分布,自然分布就是命运。年轻时要努力奋斗,因为自己的位置是不确定的,自己的潜力是未知的。但是,一定要注意,人生的舞台有很多,人的能力有多面,千万不要觉得人生只有一条路。你在这一条路上可能平平,在另一条路上却可能优秀。一方面要坚韧不拔,另一方面要灵活机动,才能找到你最擅长做的事。此外,还要考虑到时间这个至关紧要的向度。我们最重要的资本是时间。时间资源在人口中也是正态分布,不同年龄段的人应该奉行不同的人生哲学。年轻,意味着年富力强,时间资源超过平均值两三个标准差,理当奋斗向上,百尺竿头更进一步。中年以后,时间资源已经是平平,比上不足比下有余。需要从安身到立命,而立命的前提就是承认命运,接受使命。这个时候,要清楚一点,任何人在这个世界上都永远只有个相对位置,你可以在某个时刻人类第一,但你不可能长期保持那个位置。另外,任何一个人都不可能超越全人类,想超越全人类,注定失败。有的人老了还想搞点新花样,“不知老之将至”。一般来说,声称不服老,只是欺骗自己,像小孩做游戏,自娱自乐。我们尊重这样不服老的人,但是不能相信他们真会兑现承诺。
四、正态分布的禅机
1990年代,解释学风行一时。然而,如同众多的哲学,风行的只是气味,一些专家讲的,也不过是钱钟书先生说的,是包过茶叶的纸。理解正态分布,确实需要在解释学所说的解释循环中走几圈。第一步,带着先见(成见、偏见),即已经获得的印象、理解、领悟看正态分布的解说;第二步,根据第一步的所见、所理解、所领悟,修改(不一定改对,所以不能用修正)作为起点的先见,走到新起点;第三步,站在新起点上,重复先见——新见——新先见的过程。
有个成语,“八仙过海,各显其能”,意境就是邓小平睿智的猫论:“不管白猫黑猫,捉到老鼠就是好猫。”不管什么方法,能过河就是好方法。你有神通,一步能跨过,很好;我没有神通,摸着石头走,照样能过河。这里介绍的,其实就是几块关键的石头。说得堂皇些,是架一个跳板。对,是个跳板,不是桥。桥需要两端踏实,跳板只需要一端踏实,算半座桥,断桥胜于无桥。跳板弹力,在板材不变的前提下,取决于跳板长度,跳板越长,越靠近彼岸。彼岸不是实地,是概率世界,是不确定性的思维世界。正态分布是个理论假设,我们永远没有办法构建出一个真实的正态分布,也就是永远无法找到一个坚实的桥墩。有跳板,可以借力,不用使蛮力,少一些硬生生直跳的风险。实的桥墩,其实也不那么实,是比较实,比较接近现实,比较接近常识。跳板的基座,是初级版单人牢房思想实验。跳板,是中级版单人牢房思想实验。惊险一跃,是高级版单人牢房思想实验。理解正态分布,从个体到殊相,比较容易;从殊相到共相,是惊险的一跃。跳的人无数,跳过去的不多,摔昏的也不多,多数是悬在半空,半通不通,似通非通。站在讲台上教统计,以其昏昏使人昭昭的,恐怕也不乏其人。自己如坠五里雾,想带学生拨云见日,当然不可能。量化研究论文的作者,少数人恐怕也是仿佛懂,会操作,死记硬背,鹦鹉学舌。
对正态分布,从认知,到理解,再到参悟,有三分像张中行先生在《禅外说禅》这本奇书中讲述的参禅过程(本人没有参禅体会,借用比喻而已)。
第一阶段,看雇员数据的年薪分布和中国调查的年龄分布,看山是山,看水是水。正态分布图一般画出平均值左右四个标准差,这一部分可见,超过的部分是虚线,不可见。在这个阶段,我们看正态分布图,能看到可见的部分,看不到不可见的部分;看到的就是得到的,入眼也入心;看不到的无限延长的两端,理论上存在,但是图上不显,我们看不见,看不见就是得不到,不入眼也不入心。
第二阶段,想象中国成年男子身高的虚拟然而可见的分布,重点脑补两端,即左右的0.13%。一是把左侧的身高从80厘米推向0;二是把右侧的身高从240厘米推向无穷大;身高为0的概率无穷小,可以想象,不能想见;身高无穷大的概率同样无穷小,可以想象,不能想见;看山不是山,看水不是水。眼与心分工,然而不分体。我们并不闭目沉思,其实,即使闭目,也仍然能看见正态分布图。这个阶段,正态分布图上可见的,视而不见,入眼不入心;不可见的,不入眼却入心,或者说,入心,尽管未入眼。
第三阶段,看山是山亦非山,看水是水亦非水。不是眼在看,是心目在看,看到的是理论意义的概率正态分布。正态分布图上,可见的,入眼亦入心;不可见的,入心亦入眼。肉眼依然明,心眼业已开。
总而言之,正态分布既有可视可见,又有只可思议,还有不可思议,从直观到神秘,一应俱全。正态分布难以理解,难以领悟。它表面上简单直观,骨子里深奥抽象。从感知正态分布,到理解正态分布,再到领悟正态分布,是通向统计分析之神的智慧关。统计分析是概率论和计算技术支持的证伪思维方式,打不通智慧关,就是没有跃过龙门。不建立概率思维方式,不领悟证伪思维,即使会应用量化研究方法,也只是照猫画虎,未得妙趣。深奥,就是不直观;抽象,就是不具体。然而,正态分布图又是一个直观具体的形象。理解正态分布,如同参禅,历经三个阶段。对待正态分布,诚实的态度是,直观部分,浅易说;思辨部分,清楚说;不可思议部分,努力说。这一章,我挖空心思,想到了极限,承认局限。读不懂,一定是我没说清楚,没说清楚,一定是我说不清楚;说不清楚,一定是我理解不透,参悟不深。我没有青年维特根斯坦那份自信,把自己的局限视为人类的局限。不过,我有足够的自信说,现实生活中,学校课堂上,正如寺庙的经堂,常见的是不尽诚实、偷懒耍滑的神秘主义。对禅宗的没落,尤其对主张“顿悟”的禅宗各派的没落,张中行先生分析得既透彻又同情,他的见解适用面很广。
最后,仿效黑格尔,搞点神秘主义:正态分布是平均值、标准差、概率的三位一体。

