全屏显示专题章节

在本章内我们要研究的问题是关于“概然性”的一种非常简单的解释。首先我们必须证明这种解释满足第二章的公理，然后再初步考察这种解释可以在多大范围内囊括“概然性”这个词的通常用法。我将把这种解释叫作“有限频率说”，以区别于后面我们将要研究的另一种频率说。

有限频率说从下面的定义出发：

设B是任何一个有限集合，而A是任何一个另外的集合。我们想确定任意选择的B的一个分子为A的一个分子的机会，比方说，你在街上遇见的第一个人名叫史密斯的机会。我们把这种概率定义为B的分子也是A的分子的数除以B的总数的商。我们用A/B这个符号来表示它。

显然给予这样定义的概率一定是一个有理分数或者就是0或1。

几个具体的例子就可以让我们看清楚这个定义的意义。一个任意挑选的小于10的整数为质数的机会是多少？有9个整数小于10，其中5个是质数；所以机会是5/9。假定你不知道我的生日，那么在我去年生日那天剑桥下雨的机会是多少？如果剑桥下雨的天数是m，那么机会就是m/₃₆₅。一个人在伦敦电话簿里出现为史密斯这个姓的机会是多少？为了解决这个问题，你必须先数一下在“史密斯”这个姓下面的项目，然后数一下全部项目，并以后面的数去除前面的数。从一副纸牌里随便抽出的一张纸牌为黑桃的机会是多少？显然是13/52，即1/4。如果你已经抽出一张黑桃，那么你再抽出一张黑桃的机会是多少？答案是12/51。一次掷出的两个骰子，数目加起来为8的机会是多少？骰子有36个可能出现的结局，其中有5个数目加起来为8，所以机会是5/36。

显然就许多简单例子来说，上面的定义所得的结果符合于概然性的习惯用法。现在让我们探究一下给予这样定义的概然性是否满足那些公理。

我们现在必须把公理中出现的字母p，q和h当作类或命题函项，而不是命题。我们不说“h蕴涵p”，而说“p包含h”；“p和q”代表p和q两类的共同部分，而“p或q”则代表由所有属于p或q或者同时属于p与q两类的项目所构成的类。

我们的公理是：

Ⅰ.p/h只有一个唯一的值。除了在h为零，因而p/h＝0/0的情况外，这个公理为真。因此我们假定h不为零。

Ⅱ.p/h的可能值是所有从0到1的实数。照我们的解释，它们将仅是有理数，除非我们能找到一种方法把我们的定义扩展到无限类。这并不是容易做到的事，因为当除法涉及的数目是无限数的时候不能得出唯一的结果。

Ⅲ.如果h包含于p，那么p/h＝1。在这种情况下，h与p的共同部分是h，所以根据我们的定义就可以得出上面的结果。

Ⅳ.如果h包含于非p，那么p/h＝0。从我们的定义就可以看出这一点，因为在这种情况下h与p的共同部分是零。

Ⅴ.合取公理。照我们的解释来讲，h的分子同时为p和q的分子所占的比例数等于h的分子同时为p的分子所占的比例数乘以p与h的分子同时为q的分子所占的比例数。假定h的分子数为a，同时属于p和h的分子数为b，而同时属于p，q和h的分子数为c。那么h的分子同时为p和q的分子所占的比例数是c/a；h的分子同时为p的分子所占的比例数是b/a，而p和h的分子同时为q的分子所占的比例数是c/b。这样我们的公理就得到了证实，因为c/a＝b/a×c/b。

Ⅵ.析取公理。如果保留上面所说的a，b，c的意义，并让d为h的分子同时为p或q或者同时属于p与q两类的分子数，而e为h的分子同时为q的分子数，那么照我们现在的解释来讲，这个公理就表示：

这样，如果h是一个有分子的有限类，那么这就可以满足我们的公理，只要不把概率的可能值限为有理分数的话。

由此可以看出数学的概率论照上面的解释来讲是正确的。

可是我们还需要看一下给予这样定义的概率的范围，这种范围初看似乎过于狭小，不能满足我们对于概率的应用所抱的期望。

首先，我们希望能够说出某个特定事件具有某种特点的机会，而不仅仅是某一类中某个未经指定的分子所具有的机会。例如：你已经掷出两个骰子，但是我还不曾看到结果。对我来说，你掷出双六的机会是多少？我们想能够说出它是1/36，而如果我们的定义不允许我们这样说，它就不能充分满足我们的要求。在这种情况下，我们说我们把一个事件仅仅当作某一类的一个实例来看待；我们说如果把a只当作B类中的一个分子，那么它属于A类的机会是A/B。但是“把一个特定事件仅仅当作某一类的一个分子来看”所表示的意思是不很明确的。这样一种情况所包含的内容是：我们已知一个事件的某种特点，这种特点凭借比我们所有的更为完备的知识，足以使这个事件唯一确定下来；但是只凭借我们的知识，我们就没有方法确定它是否属于A类，尽管我们确实知道它属于B类。你在掷出骰子以后知道掷出的结果是否属于双六这一类，但是我却不知道这一点。我仅有的一点有关的知识是它是36个可能的掷出结果之一。或者看一看下面的问题：美国身材最高的人居住在衣阿华州的机会是多少？有人也许知道他是谁；至少有着一种发现他是谁的方法。如果使用这种方法成功，那就出现一个不包含概然性在内的确定答案，即他要么在衣阿华州居住要么不在衣阿华州居住。但是我却没有这种知识。我可以说衣阿华州的人口为m而美国人口为n，并且说相对于这些数据来说，他在衣阿华州居住的概率是m/n。这样当我们说到一个具有某种特点的特定事件的概率时，我们就总要把借以计算概率的有关数据确定下来。

我们可以概括地讲：已知任何一个物体a，并且已知a是B类的一个分子，我们说凭借这个数据，按照上面所说的概率的定义，a是A类的一个分子的概率是A/B。这个概念是有用的，因为我们常常充分知道某个物体，使得我们可以唯一确定地给它下出定义，而无须知道它是否具有这种或那种属性。“美国身材最高的人”是一个确定的描述，这个描述适用于一个并且只适用于一个人，但是我并不知道他是什么人，因而他是否居住在衣阿华州对我来说仍然是个未决的问题。“我要抽出的一张牌”是一个确定的描述，并且我立刻就会知道这个描述是否适用于一张红牌或是一张黑牌，但是现在我还不知道。正是这种很常见的关于特定物体的部分无知的情况使得在特定的物体身上应用概率成了有用的东西，而不仅是应用到类中完全没有确定的分子身上。

虽然部分无知是使上面的概率形式有用的原因，概率这个概念却不包含什么无知，这个概念对于全知来说仍然具有和对于我们来说同样的意义。全知会知道a是否为一个A，但是全知仍然可以说：凭借a是一个B这个数据，a是一个A的概率是A/B。

在把我们的定义应用到特定的实例时，在某些情况下存在着一种可能发生的意义上的含混。为了弄清楚这一点，我们必须使用性质而不是类的说法。设A类由性质φ确定，而B类由性质ψ确定。接着我们说：

a在已知它具有性质φ的条件下具有性质ψ的概率被定义为同时具有性质φ和ψ的事物对于具有性质ψ的事物之比。我们用“φ a”来表示“a具有性质φ”。但是如果a在“φ a”内出现不止一次，那就会出现一种意义上的含混。举例说，假定“φ a”是“a自杀了”，即“a杀死a”。这是“x杀死x”的一个值，而“x杀死x”是由自杀组成的类；也是“a杀死x”的一个值，而“a杀死x”是a杀死的人组成的类；也是“x杀死a”的一个值，而“x杀死a”是杀死a的人组成的类。这样在给φ a的概率下定义时，如果“a”在“φ a”中出现不止一次，我们就必须指出它的哪些次出现可以当作一个变量的值和它的哪些次出现不可以当作一个变量的值。

我们将发现我们能够按照上面的定义来解释所有的基本定理。

让我们拿拉普拉斯自命的归纳证明为例来看：

有N＋1个口袋，每个口袋中有N个球。

在这些口袋中，第r＋1个口袋中有r个白球和N－r个黑球。我们已经从一个口袋中拿出n个球，而这些球全是白球。

（a）我们已经挑中其中都是白球的口袋的机会是多少？

（b）下一个球是白球的机会是多少？

拉普拉斯说（a）是（n＋1）/（N＋1）而（b）是（n＋1）/（n＋2）。

让我们用一些数字实例来说明。首先，假定一共有8个球，其中已经取出4个球，而这4个球全是白球。那么（a）我们已经挑中只有白球的口袋的机会和（b）下一次取出的球是白球的机会各是多少？

设p_r代表我们已经挑中有r个白球的口袋这个假设。数据把p₀，p₁，p₂，p₃排除在外。如果我们有p₄，那么我们只有一种方法可以已经拿出4个白球来，剩下4种拿出一个黑球的方法，但却没有一种拿出一个白球的方法。如果我们有p₅，那么我们有5种方法可以已经拿出4个白球，并且对于其中每一种方法来说都有一种拿出另一个白球和三种拿出一个黑球的方法；这样从p₅我们就得出5个下一个球是白球和15个下一个球是黑球的实例。如果我们有p₆，那么就有15种挑出4个白球的方法，并且在挑出它们之后还剩下两种挑出一个白球和两种挑出一个黑球的方法；这样我们从p₆就得出30个挑出另一个白球和30个下一个球是黑球的实例。如果我们有p₇，那么就有35种拿出4个白球的方法，并且在拿出它们之后还剩下3种拿出一个白球和一种拿出一个黑球的方法；这样我们就有105种拿出另一个白球和35种拿出一个黑球的方法。如果我们有p₈，那么就有70种拿出4个白球的方法，并且在拿出它们之后还有4种拿出另一个白球但却没有一种拿出一个黑球的方法；这样我们从p₈得到280个第5个白球和没有黑球的实例。加在一起，我们就有5＋30＋105＋280即420个第5个球是白球和4＋15＋30＋35即84个第5个球是黑球的实例。所以白球所占的优势是420比84，即5比1；这就是说，第5个球是白球的机会是5/6。

我们已经挑中都是白球的口袋的机会，是从这个口袋挑出4个白球的方法数除以挑出4个白球的方法的总数所得的比值。我们已经看到前一个数是70；后一个数是1＋5＋15＋35＋70，即126。所以机会是70/126，即5/9。

这两种结果都和拉普拉斯的公式相符合。

让我们再举一个数字的例子：假定有10个球，已经拿出其中5个并且发现都是白球。那么p₁₀即我们挑中只有白球的口袋的机会是多少？下一个球是白球的机会又是多少？

这样p₁₀的机会就是252/（1＋6＋21＋56＋126＋252），即252/462，亦即6/11。

下一个球是白球的方法有

6＋21×2＋56×3＋126×4＋252×5，即1980个，

而下一个球是黑球的方法有

5＋4×6＋3×21＋2×56＋126，即330个。

所以白球所占的优势是1980比330，即6比1，因而挑出另一个白球的机会是6/7。这又和拉普拉斯的公式相符合。

现在让我们看一看伯诺利的大数定律。我们可以具体说明如下：假定我们抛掷n次钱币，每出一次正面写上1，每出一次反面写上2，这样就形成许多n位数。我们将假定每个可能的序列只出现一次。这样如果n＝2，我们就有4个数，11，12，21，22；如果n＝3，我们就有8个数，111，112，121，122，211，212，221，222；如果n＝4，我们就有16个数，1111，1112，1121，1122，1211，1212，1221，1222，2111，2112，2121，2122，2211，2212，2221，2222；以此类推。就上面表中最后一项来看，我们看出

　四位都是1的有1个数，

　三位是1和一位是2的有4个数，

　两位是1和两位是2的有6个数，

　一位是1和三位是2的有4个数，

　四位都是2的有1个数。

1，4，6，4，1这些数是（a＋b）⁴中的系数。不难证明，与n位数相对应的数是（a＋b）ⁿ中的系数。伯诺利定理的全部意义在于如果n大，那么接近中间的系数的和就几乎等于所有系数的和（后者等于2ⁿ）。这样如果我们在大量拋掷当中把所有可能的正反面系列都算进来，其中绝大多数情况下两者都几乎相等；另外随着抛掷次数的增加，大多数情况数和接近程度也随着无限增加。

尽管伯诺利定理比起上面包含对于相等概然性进行抉择的说法更为一般和确切，就我们现在的“概率”的定义来说，它却可以按照类似上面的方式来加以解释。这是一件事实，即如果我们写出全部由不是1就是2组成的100位数，那么大约有四分之一包含49位或50位或51位是1的数，有接近半数包含48位或49位或50位或51位或52位是1的数，半数以上包含47到51位是1的数，大约四分之三包含46到54位是1的数。随着位数的增加，1和2几乎平均出现的数目占压倒优势的实例也就随着增加。

为什么这件纯属逻辑的事实被我们当成适当的理由，使我们在拋掷许多次钱币时期待着事实上得到的几乎数目相等的正反面，那就是一个不同的问题，其中除了涉及逻辑定律之外还涉及自然律。我现在提到它的目的只在于强调我现在不讨论这个问题。

我想强调在上面的解释中没有谈到可能性，也没有谈到实际上涉及无知的问题。这里只是计算一下B类的分子数目并确定它们当中同时属于A类的比例数。

有时人们认为我们需要一个等概率公理——例如说出正面和反面的概率相等。如果这指它们事实上出现的频率接近相等，那么这个假定对于数学的概率论就不是必要的，因为后者本身并不研究实际的事件。

现在让我们看一下有限频率的定义对于那些看来也许出了它的范围的一些概然性实例的可能的应用。

首先，这个定义在什么条件下可以扩展到无限集合？因为我们已经把概率定义为一个分数，并且因为分数在分子和分母为无限时无意义，所以只有在有某种趋近一个极限的方法时才能扩展这个定义的范围。这就要求我们要对之计算a为b的概率的那些a形成一个系列，事实是一个级数，以便把它们表示为a₁，a₂，a₃，……a_n，……，这里对于每个有限整数n来说都有一个与之对应的a_n，反过来说也是一样。这时我们就可以用“p_n”表示到a_n为止所有a属于b的比例数。如果在n增加时，p_n趋近一个极限，我们就可以把这个极限定义为一个a将成为一个b的概率^[5]。可是我们还必须把p_n的值围绕极限摆动的情况与p_n只从一方面趋近极限的情况区别开来。如果我们反复抛掷一块钱币，出正面的次数有时会超过总数的一半，有时又少于总数的一半；这样p_n就围绕1/2这个极限来摆动。但是如果我们估计到n为止的质数的比例数，这就是只从一方面趋近极限：对于任何有限的n来说，p_n是一个确定的正分数，这个正分数在n的值大的情况下接近于1/log n。现在当n无限增加时，1/log n趋近于零。这样质数的比例数趋近于零，但是我们不能说“任何整数都不是质数”；我们可以说一个整数为质数的机会无限小，但却不是零。显然一个整数为质数的机会比它，比方说，既是奇数又是偶数的机会要大，尽管这种机会小于任何不管怎样小的有限分数。我认为当一个a为一个b的机会严格说等于零时，我们就可以推论出“任何a都不是一个b”，但是当这种机会无限小时，我们却不能作出这种推论。

我们可以看到除非我们对于自然的进程作出某种假定，我们就不能在处理一个用经验的方法得到定义的系列时使用趋近极限的方法。例如，如果我们反复抛掷一块钱币，在进行过程中我们发现出正面的数不断趋近1/2这个极限，这并不能使我们假定这就是在我们能使我们的系列变为无限系列时的真正极限。举例说，可能有这种情况：如果n是抛掷的次数，出正面的比例数严格说并不接近1/2而是接近

其中N是一个大数，大大超过我们在具体实验中所能得出的任何数。在这种情况下，我们的归纳会在我们正在认为它们已经巩固建立起来的时候就开始被经验界的证据所否定。或者可能发生这样的情况：对于任何经验界的系列来说，经过一段时间，这个系列就变成毫无规律，在任何意义上说也不再趋近一个极限。那么，如果上面所说的扩展到无限系列的范围可以用在经验界的系列身上的话，我们就将要祈求某种归纳的原理。没有这个公理，我们就没有理由期待这样一个系列的后面部分继续为前面部分所遵守的定律提供例证。

在通常的经验界的概然性的判断中，例如天气预报中所包含的概然性的判断，有着结合在一起需要分开的不同因素。最简单的假设——为了举例说明已经把它过分简单化了——就是观察到某种预兆，而在这种预兆之后就以前观察过的比方说百分之九十的实例来说都下雨。在这种情况下，如果归纳论证和演绎论证同样确实可靠，我们就会说“下雨有百分之九十的概率”。这就是说，现在这个时刻属于某一个类（由所说的出现预兆的时刻组成），其中百分之九十是下雨以前的时刻。这是我们刚刚研究过的数学意义上的概率。但是使我们不能确定是否将要下雨的因素并不只是这一点。我们对于这种推论的正确性也还不能肯定；我们对于将来十次中有九次在出现所说的预兆之后下雨这一点也感到没有把握。这种怀疑可能有两种，一种是科学的，另一种是哲学的。我们可能一方面保留对于一般科学程序的充分信赖，一方面感到在这种情况下数据太少不能保证进行一次归纳，或者感到没有足够仔细地消掉其他也可以出现和可能作为更为常见的雨的预兆的一些条件。或者气象记录也可能不大可靠：记录可能让雨淋坏，或者让一个不久就被鉴定精神失常的人弄得无法辨认。这类怀疑是在科学程序范围之内的事情，但是也存在休谟提出的那些怀疑：归纳方法是正确的吗？或者它只是一种使我们感到舒适的习惯？这些理由当中任何一个或全部都可能使我们对于由于我们的证据才使得我们相信的百分之九十的下雨机会感到没有把握。

我们在这类实例中遇到了等级不同的概率。第一级是：天大概会下雨。第二级是：我看到的预兆是大概会下雨的信号。第三级是：大概某些种类的事件使得某些将来的事件具有概然性。在这三个等级中，第一级是常识所说的概然性，第二级是科学中的概然性，第三级是哲学上的概然性。

在第一阶段中，我们已经观察到迄今为止十次中有九次B跟随A而发生；所以在过去A使得B具有有限频率意义下的概然性。在这个阶段我们不假思索就假定我们可以预料将来也会发生同样的事情。

在第二阶段中，即使不怀疑从过去推论出将来的一般可能性，我们也认识到这类推论应该受到某些保障，比方说穆勒的四种方法。我们还认识到即使按照最好的规则行事，归纳也不是总能证实的。但是我认为我们的方法仍然可以纳入有限频率说的范围之内。我们在过去已经作过一些归纳，有些作得比较仔细，有些则较差。在那些按照某种方法作出的归纳当中，到现在为止已经有一部分p得到了证实；所以到现在为止这种方法已经对于它所许可的那些归纳赋予概率p。科学方法大部分是由一些法则组成，通过这些法则我们可以使p（由过去归纳的过去结果所证明的）更加接近于1。所有这些仍然未出有限频率的范围，但是现在归纳却是我们估量频率的单独项目。

这就是说，我们有A和B两个类，其中A由按照某些规则完成的归纳组成，B由为迄今为止的经验所证实的归纳组成。如果n是A的分子数，m是A和B的共同分子数，那么m/n就是按照上面的规则进行的一次归纳将具有的产生迄今所得到的那些在可以证实的情况下为真的结果的机会。

在这样说的时候，我们并没有使用归纳法；我们只是描述自然进程的一个已经被观察到的特点。可是我们已经发现任何关于科学程序所提出的规则的优越性（直到现在为止）的标准，并且我们已经发现这个标准就在有限频率说的范围之内。唯一新鲜的地方就是我们现在所用的单位是归纳，而不是单独的事件。我们把归纳当作发生的事件，而且只有那些实际发生的事件才可以当作A类的分子。

但是一旦我们主张一个迄今已被证实的归纳将要，或者大概将要被证实，或者主张迄今已经提供大量迄今已被证实的归纳的那些程序法则将来也很可能提供大量已被证实的归纳，我们就越过了有限频率说的范围，因为我们是在处理数目未知的类。数学的概率论，和一切纯粹数学一样，尽管给我们知识，却不能（至少就一种重要的意义来说）给我们任何新的知识；另一方面，归纳则确能给我们某种新的东西，唯一的怀疑是它所给的东西是否是知识。

到现在我还不想批判地去考察归纳；我只想说清楚归纳不能纳入有限频率说的范围，即使通过把一个特殊归纳看成一类归纳中的一个这种办法也做不到这一点，因为检验过的归纳只能为一个迄今尚未检验过的归纳提供有利的归纳证据。那么，如果我们说那种归纳正确有效的原理具有“概然性”，我们所说的“概然性”这个词的意思就不同于有限频率说中所说的“概然性”的意思；我认为我们所说的“概然性”的意思一定就是我们说过的“可信的程度”。

我总认为如果我们假定了归纳，或者任何我们认为可以代替归纳的公设，那么所有精确的和可以度量的概率就都可以解释为有限频率。举例说，假如我说“很可能有过佐罗亚斯德这个人”。为了证实这个陈述，我将首先考虑在他这个事例上大家公认的证据，然后找出已知真实或虚妄的类似的证据。这种概然性所依靠的类不是存在的或不存在的先知的类，因为把不存在的先知包括在内就使得这个类变得内容有些含糊不清；这种概然性也不能只依靠存在的先知这一类，因为有关宏旨的问题乃是佐罗亚斯德是否属于这一类。我们将要采取的步骤如下：就佐罗亚斯德这个事例来说，有属于某一类A的证据；在所有属于这一类并且可以检验的证据当中，我们发现一部分p是真实的；因此我们通过归纳推论出有一种概然性p有利于佐罗亚斯德事例中的相似证据。这样频率加上归纳就包括了概然性的这种用法。

或者假定我们像巴特勒主教那样，说“宇宙大概是造物主精心策划的结果”。这里我们是从类似表蕴涵表匠这一类的次要论证来开始的。中国有一种大理石，这种大理石有时碰巧能产生类似艺术家绘成的图画；我就曾经见过最令人感到惊奇的一些实例。但是这种情况太罕见了，所以在我们看见一张图画的时候，我们有理由以很大的概然性（在假定归纳的情况下）推论出一个艺术家来。那位当主教的逻辑学家所能做的，像他用他的书名来强调的那样，只是证明这种类推；我们认为这是可以怀疑的，但却不能纳入数学的概率论中去。

因此，到现在为止，看来可疑性和数学的概率——后者是就有限频率的意思来讲的——是自然律和逻辑法则之外唯一需要的概念。可是这个结论只是暂时性的。在我们还没有考察某些另外提出来的“概然性”的定义之前，我们是不能说出什么确定的意见的。