1
社会科学方法论
1.11.5.1 一、抽样的策略

一、抽样的策略

抽样是收集数据所要作出的首个决策。抽样是一种选择研究对象的程序和方法。由于总体范围太大而难以研究等多种原因,研究者往往无法对研究对象的总体进行研究,而只能从研究对象的总体中挑选一部分来进行研究。这种从总体中选出一部分的过程就是抽样,总体的一部分被称为样本。抽样策略可以分为两大类:概率抽样和非概率抽样。在概率抽样中,每个抽样单元通过随机的方式,都有机会被选作样本,从而进行统计推断。而非概率抽样不是通过随机方式,而是根据特定目的来选取样本,因此样本不具有代表性,也不能对总体进行有效地推断。

概率抽样的逻辑基础是,所选择的样本具有代表性,每个样本个体都是对等的数据源,可以依据样本的结果对总体特征进行统计推断,从而回答研究问题或实现研究目标。在定量研究中,研究者感兴趣的是总体,而不是偶尔抽取到的样本。随机抽取样本一定要有足够的数量,以减少样本与总体之间的偏差或抽样误差。例如,某市大约有30 000万位中小学教师,平均年龄为37.5岁。研究者从这个总体中随机抽取20位教师作为样本,其平均年龄为34.2岁。研究者又随机抽取了1 000位教师的样本,其平均年龄为36.8岁。可见,第二个样本得到的平均年龄更接近于总体,换言之,第二个样本的抽样误差小于第一个样本的抽样误差。

那么,统计分析的样本究竟要多大才合适?显然,统计分析的样本并不是越大越好,而是只要大到能代表总体即可。亨利(Henry,1990)曾经建议,在总体规模小于50的情况下,就不要使用概率抽样,而应收集所有个案数据,因为总体中的极值对随后统计分析的影响要明显大于较大规模样本中的极值。《经济学家》杂志在1997年建议,统计分析的最低样本量为30,如果总体规模为30,那么就应该收集所有个案数据。研究者通常使用95%的置信度,这就是说,如果从总体中抽取100次样本,其中至少有95次抽取的样本能够代表总体特征。边际误差代表对总体估计的精确度。表10.1描述了在95%的置信度下,不同大小的总体所需最小样本量。研究者通常用3%~5%的边际误差来估计总体特征值的范围(有时会使用更精确的2%),也就是说,如果样本中有45%属于某个类别,那么,总体中该类别的比例应该为45%加减边际误差3%,即总体有42%或48%的比例属于这个类别。

表10.1 95%置信度下不同总体的样本量(假设收集样本所有个案数据)

img20

(来源:[英]马克·桑德斯等:《研究方法教程:管理学专业学生用书》(第3版),杨晓燕等译,中国对外经济贸易出版社,2005年版,第149页。)

从表10.1中可以看到,样本规模越小,样本占总体的比例就越小,边际误差就越大。随着样本规模的扩大,样本规模对边际误差的影响就会减少。deVaus(2002)认为,基于这个原因,很多市场调查公司把样本规模限制在2 000左右。

为了保证样本的代表性,定量研究主要采取以下三种抽样策略:

(1)简单随机抽样。这种抽样策略是最常用的一种概率抽样,它是指总体中所有个体都有同等的、单独的机会被选为样本成员。所谓单独是指把某个个体选进样本不会对其他个体的入选产生影响。例如,为了从某个大学3 000名大一新生总体中随机抽取300名学生,研究者可以先获取该大学所有3 000名学生的名册,并为每个学生编号,然后再用随机数字表从名册中抽取一个300名学生的样本。

(2)分层随机抽样。所谓分层随机抽样就是以同样的抽样比率从各层总体中抽取样本个体的方法。这种抽样策略特别适用于由多个异质的子总体所构成的总体。每个子总体称为一层,从每一层中随机抽样,而不是直接从母总体中随机抽样。如果用分层随机抽样方法从某个大学9个学院3 000名新生中抽取300名学生,就可以将每个学院视为一层,采用1/10抽样比率,从9个学院中分别随机抽取各学院学生样本。

(3)整群抽样(cluster sampling)。整群抽样就是以个体群为单元进行抽样,被抽选个体群的所有成员都包含在样本中。这里的抽样单元是自然形成的个体群,其异质性较大,通常包含了两个以上的个体。如果研究者对选中个体群的所有单元进行调查,这个程序被称为一级整群抽样。如果样本单元是从所选子集中随机抽取的,则被称为二级整群抽样。在总体情况未明或者总体随机抽样花费太大的情况下,往往会采用整群抽样法。例如,在社会调查中,经常把城市社区视为一个群单元,把一个班级视为一个整群。

与定量研究相比,定性研究的样本规模一般很小,有时甚至只有一个案例。定性研究一般采用目的性抽样技术。目的性抽样的逻辑基础是,样本个体掌握着丰富的研究信息,但这些信息在数量上是不对等的,被选中的样本个体能够提供丰富的信息。可见,选取少量案例的目的在于深入挖掘样本个体所掌握的研究信息。目的性抽样不在于选择一个有代表性的样本,而在于挑选与特定研究目的相一致的个案并据此获得丰富的研究信息。例如,研究者想要了解大学教师是如何进行新课教学的,就可以设计一个定性研究,深入观察各种教师是如何实施新课教学的。研究者分别选取新教师和老教师的样本。假如某个大学恰好有25位这样的教师。研究者与第一位教师接触后发现,他既紧张又不善于交流,于是决定不再花时间说服他参加。第二位教师比较外向,欣然接受了访谈,并超额完成了任务,因此这位老师就被确定为新教师样本。研究者可以用同样的办法来确定其余新老教师样本。

当然,目的性抽样并非随意抽样。样本单元的选择是以事先确认的准则或标准为依据的。研究者需要对变异性和极端情况等样本单元特征有比较深入的了解。目的性抽样的常用策略包括:

(1)极端个案抽样。这种抽样策略涉及选取不同寻常或特殊的个案,其逻辑前提是,从极端个案中获得的研究信息可以用来更好地了解和解释其他更典型的个案。例如,对示范学校的研究经常使用极端个案抽样,选择这些学校主要是因为按照特殊标准它们是成功的。极端个案抽样可能出现的问题是,研究者可能会因为是极端个案而不认可其结论。

(2)最大差异抽样。该抽样策略是指选择那些能揭示被研究现象最大差异特征的个案。研究者可以通过取样前的深入研究,来确保样本特征差异的最大化。例如,对某市几所中学的民族志研究,就可以选择在学校地点(城市和郊区)、学校性质(公办和民办)、学生来源(本地和外来)上具有不同统计特征的学校作为样本。

(3)典型个案抽样。与极端个案抽样和最大差异抽样相比,典型个案抽样走的是中间路线,所选取个案是所研究现象的典型。例如,对中学的民族志研究,所选取的学校既不是最好也不是最差,而是典型学校;所访谈的学生既不是尖子生也不是特差生,而是一般的普通学生。典型个案抽样特别适用于对新方案的评估,因为这种抽样设计使新方案能够有效地应用于绝大多数个案从而具有很大的成本效益。

(4)“滚雪球”抽样。该抽样策略涉及最初被选定的个案推荐更多新个案的抽样过程。随着这个过程的展开,合适的人选会越来越多,个案数量也会逐步增多,直到再没有新的个案出现或者样本数量达到饱和。有时,少数个体的名字会在不同的推荐人那里反复出现,如果真的出现这种不谋而合的现象,这些反复出现的个体可以组成一个极为可信的样本。“滚雪球”抽样一般用于难以确定样本总体的情形,如对申请失业救济者的研究等。