5.4.5 概率统计之我见


作者:傅渥成
链接:https://www.zhihu.com/question/20318163/answer/14738321
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

首先说一下,如果你觉得用不上,那只能说明你学的太简单了,如果学得足够深入,应该是能够看穿它究竟有怎样的用处的,下面具体谈谈究竟概率论有些怎样的用处吧:

1、从数学基础的角度来看,概率论的学习中将会发现这门课将与许多的数学基础的概念都有很紧密的关系,例如与测度论、线性代数、广义函数等,而概率论中的那些极限理论对于进一步学习深入的数学知识实在是太重要了;

2、从应用的角度来说,概率论究竟又有怎样角度呢,我想包括以下几个方面:
(1)许多的常用的含参变量的积分,例如Gamma函数等等,都是可以通过学习概率论理解清楚它的一些背景;
(2)概率论中提供了许多分析问题的方法,有太多的东西已经成为在平时的工程和科学研究中,例如工程质量控制等方面不能缺少的东西,例如正态分布的均值和方差,这些对于以后学习数理统计的区间估计、参数检验等等都是非常重要的。说得更加夸张一些,这些东西对于你自己理解这个世界非常重要,一方面,你可以不那么容易被统计数据欺骗,另一方面,你可以从看似随机的数据中推断出有效的信息来,如果想要了解这一问题,可以参考《女士品茶》《统计数据的真相》(另有译本作:怎样用统计骗人?/统计数据怎能骗人?)等等概率和统计方面的名著;
(3)概率论与我们的生活和科研也充满了联系,如果你想做一个投资,那么我们考虑一个投资组合模型,这就是一个与概率论有关的模型;当你做工程里面的一些问题时,你可能面对许多个变量,这时你可能需要用到多元统计分析的知识;当你做信号处理这样的工程问题,你可能会遇到各种各样的随机噪声,这些噪声与随机过程密切相关,这些学科无意不是建立在概率论的基础上,而如果你想理解物理学,不管是统计物理、量子力学还是量子场论等等,都不能不懂概率论的啊。

3、这里独立出来强调一下贝叶斯分析的重要性,在你学习了条件概率、条件分布、贝叶斯公式等等之后,你要能看到贝叶斯这其中所蕴含的应用的无限的前景,提出将概率推断(或者统计推断)作为整个科学的逻辑基础,如果有兴趣,可以看看吴军的黑板报《数学之美》(已经出版),我们现在的IT世界,不管是语言的识别,数据的压缩、还是搜索引擎的建构……无一不是利用到了贝叶斯分析。更重要的,贝叶斯估计的思路已经成为阐释概率论的另一种模式,这又可以参考《概率论沉思录》,这是一本辉煌的巨著,里面谈到了概率论在很多很多学科中的应用,并且是用贝叶斯估计的模式写的,非常精彩,但是也有些难度。


作者:李琦
链接:https://www.zhihu.com/question/20318163/answer/14738651
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

作为一个曾经以为没用现在后悔没学好的人,我郑重的跟你说一声,概率论和统计学都非常有用。我的工作经历中,做了两年销售、一年产品经理、现在做产品运营全都在使用这两门课。
举例如下:
销售:真正和客户沟通时用不到,但有数理概念会让你思路更清楚。典型的运用案例是,当时做了很多试验性的项目,把一个团队分成多个不同的小组,验证不同的销售行为对销售结果的影响,并总结出最有效的销售模式。这些试验结论靠的就是数理统计来分析得出。还有一个典型的例子就是公司大力推行六西格玛项目,西格玛是什么没学概率论的话你不知道了吧。
产品经理:两种不同的定价策略,如何预估不同的定价策略能带来的收益?先是市场调研和历史数据分析,然后要结论就得使用简单概率和数理统计的方法计算。
产品运营:不同的用户群体对产品的偏好是否有差异,如何分析用户需求,这些都需要大量的统计学方法计算。
我除了大一学了概率论与数理统计外,后来还学习了实验设计,系统分析等课程,都是数据分析相关的课程。可是现在还是后悔没学好,正打算把这些课程再学一遍。毕竟我还是比较肤浅地使用这些知识,如果你觉得我的回答不够明确,可以找找知乎上的数据分析师或者数据挖掘工程师来回答问题。




作者:Eric Wu
链接:https://www.zhihu.com/question/20318163/answer/17546445
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

那是一个周五下午的一点半,我坐在312教室里的一个比较靠后的位置,王晓伟坐在我的右手边。教室里人满为患,汗液和午餐的气味充斥着教室的每一个角落。离下午上课还剩二十五分钟。我百无聊赖地趴在桌子上,看见王晓伟在用笔画着什么东西。

“搞什么呢你?”我问他。

“……硬币呢。”他似乎有点心不在焉,我也没听清楚他的回答。

“什么硬币啊?讲清楚?”我看着他的脸。我敢保证他的胡子已经两个星期没有刮过了,身上那件汗衫没洗的时间可能还要更长一点。

“……你等会。”他又在纸上写了一会,然后把那张纸拿给我看。

纸被他用铅笔画的歪歪扭扭的一道竖线分成了两块——一边写着“正”,另一边写着“反”。后面跟着的是一长串一长串的公式、图表和推演过程,密密麻麻地写满了整张纸。

“你搞什么飞机?”我勉强看了两行,皱起眉头问他。

“你还记得这是什么图么?”他指着角落上的一个直方图问我。

我搜索着大学数学在我脑海里残留的那一点可怜的东西,“这是……泊松分布?”

“对!”王晓伟说,一边笨拙地转着他手里的那只水笔,一边快速地说,“我记得你大学时上随机过程课的时候总是睡觉。”

“啊?”我有点迷惑,王晓伟跟我大学亦是同一个学校,“我每节课都会睡觉的,你不用跟我说什么大道理。”

“不是。”他手一挥,把随机过程的课本翻到第一页,“你总听到点什么了吧。”

“不就是随机过程嘛!”我说,“全是概率论的那一点东西,我觉得没啥用处。”

“那你晓得,什么是随机过程么?”王晓伟的眼里有光芒闪烁。

“随机过程……不就是,嗯,随机的过程嘛……”我有点语塞——我还真没认真想过这个问题。

“你去你书上找找。”

我有点不情愿地把自己那本崭新的书翻到第一页。

第一页上是这样写的:所谓随机现象,实际上是一个非确知系统的输出。当决定一个系统输出的因素及其作用机制过于复杂,人们无法完全认知系统内部的所有因素及其作用机制,这样的系统就被称为非确知系统。我轻声地念出来。这里头有什么玄机么?
“你要看最后一句话。”王晓伟在旁边说。

最后一句话是这样说的:对于这样的“非确知系统”,人们再也无法进行“从因推果”式的研究。

“你不觉得这句话有点奇怪么?”王晓伟说,“它的意思就是……怎么说呢?非确知系统像一个灰色的箱子,你能大概地看清楚它里面的东西,可是你没办法确切地知道那里面的东西到底有多大、有多重,或者会不会咬你。”

“对啊。”我说,“所以才没办法‘从因推果’嘛。”

“非也。”王晓伟咽了口唾沫,“我们能看清多少,我们就对输出结果有多少的确知。对于不能确知的问题,数学家们好像商量好了一样,永远秉持着他们的悲观态度。”

“那又有什么错?”我反问他,“对于未知的东西你永远无法给出确切的答案。”

“那硬币呢?最简单最容易被理解的硬币实验。为什么大家却又理所当然地认为,抛一枚硬币的时候,正面和反面朝上的概率必然会是一样的呢?”王晓伟眼里闪着狡黠的光。

“你也说了这是概率!”我觉得自己抓住了他话里的漏洞,急急忙忙地大声说。

“那好。如果我给你一个没有厚度的硬币,在一个理想的条件下去抛它。在无数次的抛掷之后,你可不可以十分确定地说,它正面同反面朝上的次数一定是一样的呢?”

“这个……如果条件十分理想的话,我应该是可以肯定的吧。”我思索着说,“好像有人做过这样的实验,概率波动在次数增大时会逐渐减小的。”

“所以说,一扯到‘无数’或者‘永远’这类词的时候,数学家们的胆子好像又突然变大了呢!他们言之凿凿地认为,硬币再怎么转,也没办法逃离‘概率’的手掌心了。”王晓伟带着讽刺的口吻说,“你知道吗?那帮数学家们甚至还命名了一个‘概率力’,用来代表在样本数目增大时中心概率对于样本结果的吸引力呢!”

“我觉得没错啊……”我有点跟不上他的思路。

“你们总是忽略了一些比别人告诉你的更深一点点的东西。”王晓伟有点恨铁不成钢地看着我,“那是不是正面和反面在每一次的样本实验中出现的概率都是相等的呢?”

“是吧……”我快被他胸有成竹的话打击地无话可说了,“你到底想说什么?”

“那他们的组合呢?比如说在无数次的实验之后,我们把所有的实验结果排成一排。两次连续实验的结果组合有几种?”

“那个……四种?”

“对,你总算说对了。分别是正正、反正、正反和反反。那你觉得在概率层面上,他们四组出现的概率是一样,即都是四分之一吗?”

我想了一会,“应该是一样的吧。”

“你可以回去编一个程序来验证。”王晓伟说,“他们的概率是有细微的差别的。事实上,正正和反反的概率要略小于正反和反正的概率。就像有一个无形的力在把他们往下拉一样。”

“不可能!”我笑,觉得自己抓住了他理论里的漏洞,“你要是说这是真实的实验结果我可能还多信你点!但是如果在程序仿真所带来的理想条件下,是绝对不会出现你说的那种结果的!”

“呵呵……你看见这张泊松分布的图了吗?”王晓伟突然说。

“那又怎么样?”我反问他。

“你知道泊松分布在生活当中是多么的普遍吗?某一个电话交换台收到的呼叫、来到某个公共汽车站的乘客、某个放射性物质发射出的粒子、显微镜下某区域中的白血球,等等等等。当它们以固定的平均瞬时速率或者密度随机且独立地出现时,那么这个事件在单位题给环境内出现的次数或个数就会近似地服从泊松分布。”

“那又怎么样?”我有点丈二和尚摸不着头脑。

“泊松分布的普遍性告诉我们这样一个事实:概率这个东西在生活中的力量比你想象的要大得多,甚至说它决定了你生活的各个方面也不为过。无论你的环境有多么理想,无论你的实验有多么的精确,你的实验,甚至是你的行为轨迹,都处在概率分布的笼罩之下。”王晓伟说,“就像孙悟空逃不出五指山一样。”

“我懂。可是这跟我们的话题有什么联系?”

“我的意思是,你的仿真实验并没有你想象的那么精确!程序对于参数的调整和选取、迭代过程中对精确值跳跃式地逼近、电脑在有效位上的舍入、甚至你主机CPU的电流活动,都在无时无刻地逼近某一个概率规律,就像白血球的分布在不可抗拒地逼近泊松分布一样。因此在某种尺度上讲,它的理想程度比你用手抛硬币的实验,根本好不上多少。”

“你的意思是……”

“我的意思是你大可以去编你的程序。到最后正正和反反的概率分布一定会略微小于正反和反正的概率的!”王晓伟说,“当然,你的样本量要取地足够大才行。”

“……”我说不出话来了。如果王晓伟的结论是正确的话,整个概率数学的理论体系都将被推翻重构!然而直觉却告诉我王晓伟似乎并没有撒谎,“你……你是怎么得到这个结果的?”我搜素着脑海里仅存的一点残余的理智,反问他。

“当然是算出来的。”王晓伟微微地笑了一下,“你还记得咱们上个学期国庆放假的时候我没回去,后来差点把实验室里那几台工作站给烧了吗?”

“怎么不记得!你也够牛的,几千万的处理器都能给你差点算爆掉。幸亏老板财大气粗。”我想起去年假期那件事,王晓伟还差点因为擅自动用实验设备被开除掉。

“我整了一个米谢定算法的变型。”王晓伟停顿了一下,“用来算硬币。我敢说全世界的数学家都没有算到我那么大的量。”他又笑了一下,笑容在他的脸上扩散开来,带着一种说不清的诡异,“他们理所当然地认为他们算的足够大,也看见了、找到了概率趋近的趋势,他们便以为算再多组数也只是愈加趋近理想概率而已。”

“结果呢?”我已经目瞪口呆了。

“结果就是这个。”王晓伟说, “在序列组合的元素逐渐增多的时候,序列组合的出现频率出现了和目前所有的概率理论都无法解释的现象。就像一个看不见的力在拉它们。”

“你……你算了多少组数?”我已经想不到第二个问题了。

王晓伟出乎意料地停顿了一下,“远远超过你的想象。”他轻声说。我看见他的身子微微颤抖了一下,“如果我们用颜色的深浅去代表数字的大小的话,我算到的样本量就像深海的最深的黑色。你能感觉到它压着你的时候让你窒息的感觉。”他又停一下,喘了一口气,用力用手去抹掉额头上的汗,“连在低样本量下完全适用的概率定律都能被它压垮。这就是我用那几台几千万的处理器看见的东西:样本量的大小亦能左右概率的前进方向!”

我说不出话来了。这一连串的结论来得太快,让我找不出理由反驳。

“这仅仅是第一阶的情况。”王晓伟又开口说。他的情绪好像稳定了些,“一阶实验代表两次连续实验结果的组合,二阶实验代表三次连续实验结果的组合。三阶呢?四阶呢?我当时就有一种预感,这些序列组合就像某种……木棍一样的东西。组合长度越长,受样本量重量的影响就越大。那些沉重的样本会像堆砌的原子核一样,把那些细长的木棍往下压去。”

“那……你算过了吗?”

“嗯。”他低低地应道,“到昨天晚上为止,我算到了第十三阶的实验序列组合。”

“怎么样?”我着急地问他,“也会有……预想中的变化吗?”

“很奇怪。”他说,“很奇怪。已经出现很多弯曲了。那种看不见的力说不定不止一股,序列越长,概率扭曲就愈加明显,不再呈现我原来所想的单方向的变化,而是往四面八方延伸开去。”王晓伟停顿了一会,“当然,需要剥的壳也越来越厚了。”

我懂他的“壳”的意思,需要的样本量越来越大了,计算量也在成倍的增长。

“那你现在是用什么机器算的?”我想起了实验室里那几台差点烧坏掉的工作站。

“我把数据上传到全球的云计算网络里去了。”王晓伟说,“用了一种类似黑客的匿名方式。当然,我自己也修改了算法,但是效果没那么明显,所以主要还是靠硬算。”

“到了十三阶啊……发现什么规律了吗?”我的大脑已经没空去震惊关于“全球云计算”的问题了。

“有一点。有一段时间,那种似乎无迹可寻的力似乎被我抓到了某个尾巴。”王晓伟的语气一开始有点激动,但是瞬间就消逝了,“可是我现在又找不到了。算不下去了。每高一阶,计算的量和复杂度就沿指数阶梯爬上老大一截。即便是用尽全世界的网络资源,也没办法逼近第十四阶的解。”他的语气里全是无可奈何的味道。像是跟他的叹气相配合的,这时候,上课铃响了。

“你的意思是……我们永远也没法晓得是为什么了吗?”我追问他。

“没可能晓得。”王晓伟说,“连看都看不清的东西,你还能知道它究竟是什么吗?”他把那团纸拿过去揉成一团,扔到废纸篓里面。“听课吧。”他突然神经质地笑了起来,“听说咱们随机过程这节课的老师是个年轻女老师呢,不知道长得如何?”王晓伟促狭地笑了笑,带着一脸猥琐地表情看着我。

走廊里响起了高跟鞋声。