一、学习目标
1、了解统计数据的来源和数据的质量要求
2、了解调查数据的方法
3、理解概率抽样方法
4、理解非概率抽样方法
5、理解数据的误差来源
二、学习指南
1.知识点
数据来源;抽样方式;收集数据基本方法;数据误差
2.重点与难点
重点是数据的来源,概率抽样的几种方法,数据误差的含义、种类和控制问题。
难点是概率抽样方法,数据误差。
三、知识内容
知识点一:数据的来源
在对实际问题的研究中,往往需要利用统计数据,那么应从哪里获得必要的统计数据呢?从统计数据本身的来源看,统计数据最初都是来源于直接的调查或试验。但从使用者的角度看,统计数据主要来源于两种渠道:一是来源于直接的调查和科学试验,对使用者来说,这是统计数据的直接来源,称为第一手或直接的统计数据;二是来源于别人调查或试验的数据,对使用者来说,这是统计数据的间接来源,称为第二手或间接的统计数据。
(一)数据的直接来源:
统计数据的直接来源主要有两个渠道:一是调查或观察,二是实验。调查是取得社会经济数据的重要手段,其中有统计部门进行的统计调查;实验是取得自然科学数据的主要手段。
(二)数据的间接来源:
使用者收集到并使用了他人的调查或实验而得到的统计数据就称为统计数据的间接来源。相应的是,与研究内容有关的原数据已经存在,使用者对这些数据重新加工、整理,使之成为可以使用的数据,我们称之为间接数据或二手资料。
从数据收集的范围来看,间接数据可以来自系统的内外部。来源于系统内部的间接数据包括系统内的业务数据,如各种原始凭证、台帐、记录、统计报表、文件档案、分析资料等。
来源于系统外部的间接数据主要包括国内外公开出版的各种出版物,当然有些是尚未公开出版的数据。社会经济数据主要来自国家和地方的统计部门以及各种报刊媒介。
知识点二:抽样方式
抽样调查是实际中应用最广泛的一种调查方法,它是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种非全面调查方法。在实际应用中,抽样方法主要有两种:概率抽样和非概率抽样。
(一)概率抽样
这一方法是根据一个已知的概率选取被调查者,无须调查人员在选样中判断或抽选。从理论上讲,概率抽样是最理想、最科学的抽样方法,它能保证样本数据对总体参数的代表性,而且它能够将调查误差中的抽样误差限制在一定范围之内。但相对于非概率抽样来说,概率抽样也是花费较大的抽样方法。概率抽样有以下几种形式。
1简单随机抽样
简单随机抽样是按照随机性的原则,保证总体中每个单位被抽中的机会都相等的一种抽样方法。尽管简单随机抽样最符合随机性原则,但它并不能保证所取得的样本单位在总体中的分布均匀,所抽的样本也许缺乏代表性,这样抽样误差就会较大。为减少抽样误差,保证抽样结果的精确性,就需要抽取较多的样本数。所以简单随机抽样只是适合于总体中单位之间的差异较小的情形。此外,这种方法在实践中也有很大的局限性,因为这种抽样方法是直接从总体中随机抽取样本的,需要事先将总体中的各单位进行编号。如果总体单位的数量较多而分布又分散时,实施起来就很困难,因此又只适用于总体单位数较少而分布又集中的情形。
简单随机抽样又可以分为重复抽样和不重复抽样两种方法。重复抽样是从总体中抽取第一个单位后,再把这个单位放回总体,再抽取第二个单位。以此类推,直至抽足样本所要求的单位数为止。不重复抽样则是每次抽取样本以后不再将这个单位放回总体,而在余下的单位中抽取样本。重复抽样能够保证每次抽样时总体的构成不变,但是总体中的同一个单位可能会被多次抽到样本中去。不重复抽样能够保证总体中的单位在样本中最多只出现一次。对于单位数较少的总体而言,采用不重复抽样,更有利于获得总体信息。
要注意的是在重复抽样和不重复抽样两种情形,所得到的样本方差是不同的。
2分层抽样
分层抽样又称为分类抽样或类型抽样。它是先将总体各单位按照其属性特征分成若干个组,称为层次或类型,然后在各层或类中用简单随机抽样法或等距抽样法抽取出所需要的样本单位。
分层抽样法通过分层可以保证同一层中各单位之间的差异较小,所抽取出的单位对于该层的其他单位有较好的代表性,而且各层都有一定的单位选入样本,因此,用较少的单位就可以取得较好的抽样效果。
分层抽样法最适宜于总体情况比较复杂,各层次或类型之间的差异较大,而总体单位数又较多的情形。
分层抽样中根据每一层所抽取的样本数的决定方法不同,又可以分为几种不同的分层抽样方法:等比例分层抽样法、等数分层抽样法和最优分配的分层抽样法。
等比例分层抽样法就是要求在每一层次中所抽取的样本数在样本总数中所占的比例与这一层次的单位数在总体中所占的比例相一致。这样可以保证样本的结构与总体的结构保持一致,使样本具有更大的代表性。一般地,如果对样本的代表性要求一致时,等比例分层抽样所需要的样本单位数可以比简单随机抽样或等距抽样所需要的少一些。因此这是一种应用最广的抽样方法。
等数分层抽样法是在每一层中都抽取相同单位的样本数的抽样方法。对于总体中各层的单位数基本相等或差异不大的情形,用这种方法分配样本数比较简单,否则用这种方法所产生的抽样误差就较大。
最优分配的分层抽样法是一种按照各层单位的差异大小来决定样本数的抽样方法。这种方法主要是考虑总体单位在分层以后,不仅各层所包含的单位数不同,而且各层的指标变动程度()亦不同,在决定抽样单位时,对于指标变动程度大的层,抽样单位数要多,对于变动程度小的层,抽样单位数可以相应少些。这样就可以使各层所抽取的样本数在样本总数中的比例与该层的变动程度在所有变动程度总和中的比例相等。这种样本分配方式可以使样本的抽样误差最小。但是由于在决定样本数前,难以知道各层内单位的变动程度,所以这种方法实际上也很少采用。
3系统抽样
系统抽样又称为等距抽样或机械抽样。这种方法先将总体中各单位按某一变量顺序排列,然后每隔一定的间距抽取样本单位。
系统抽样按照排队时所依据的指标不同,可以分为无关变量排队和有关变量排队。无关变量排队就是按照与调查研究无关的变量进行排队。例如,在研究居民的平均收入水平时,先按其姓氏笔划顺序进行排队就是一种无关变量排队。有关变量排队是按照与调查研究的目的或内容有关的变量进行排队。例如,若要研究某个单位职工的平均工资水平,先对职工按其工资高低进行排队,然后再抽样就是一种有关变量排队。
系统抽样时的关键是确定在第一个间距内抽样单位的位置。如果总体是按无关变量排队的,可以在第一个间隔内随机抽取样本单位。如果总体是按有关变量排队的,则第一个抽样单位可以选择第一个间隔内居中的那个单位。在样本的第一个单位确定后,其余各抽样单位就可以按每隔一个等间距来确定。这样可以保证样本单位在总体中能均匀分布。系统抽样时的估计误差可以按照简单随机抽样的公式进行计算。
系统抽样的优点是抽样方式简单、容易实施,所以应用广。系统抽样能使样本在总体中均匀分布,因此,抽样调查的精确度一般要高于简单随机抽样。但由于系统抽样中第一个样本单位的位置确定以后,其余的样本单位的位置也就自动确定了,因此要避免由于抽样时所采用的间距和所研究对象本身的周期性相重合而引起系统性的偏差。
4整群抽样
整群抽样就是将总体中的单位按一定的变量或要求分成若干群,然后以群为单位,随机地抽取几个群,对已抽中的群进行全面调查或抽样调查的一种抽样方式。
采用整群抽样时,抽取的样本单位比较集中,因此,抽样调查实施起来就比较简单方便,可以节省人力、物力和财力。这种方法适宜于总体中所包括的单位数很多,而对其中单位的情况缺乏了解,直接对单位进行抽样的误差难以控制,风险较大时进行调查。这时采用整群抽样却可能获得较好的结果。
进行整群抽样时所得到结果的可靠性程度取决于,在对总体分群后,群与群之间差异的大小及抽选的单位数的多少。如果群与群之间差异小而抽选的样本群数多,则抽样的误差就小,反之,若群与群之间的差异大,而抽选的样本群数又少,抽样的误差就大。
5多阶段抽样
前面所介绍的几种抽样方式都是从总体中进行一次抽样就产生一个完整样本的抽样方法,通常称为单阶段抽样。但是在实践中,通常情况下,总体所包括的单位数很多,分布很广,要通过一次抽样就选出有代表性的样本是很困难的。此时我们可将整个抽样过程分为几个阶段,然后逐阶段进行抽样,最终得到所需要的有代表性的样本,这种抽样方法称为多阶段抽样。多阶段抽样时的阶段数不宜过多,一般采用二、三个阶段,至多四个阶段为宜,否则,手续繁琐,效果也不一定好。多阶段抽样时前几个阶段的抽样都是以整群抽样的方式进行的。为保证抽样结果的代表性,抽取的群数和抽样的方式都要注意样本单位分布的均匀性。为此,在第一阶段抽样时通常多抽一些群数。对于群间差异大的阶段,则应当多抽一些,反之,可以少抽一些。在每一阶段抽取群体时,可以采用简单随机抽样法或等距抽样法。不同的阶段既可以用同一种抽样方式,也可以用不同的抽样方式。
(二)非概率抽样
不是完全按随机原则选取样本。
非概率抽样主要方式有:方便抽样;判断抽样;自愿抽样;滚雪球抽样;配额抽样
1.主要是由调查人员自由选择被调查者的非随机选样。例如在购物中心采访100位妇女,这100位被调查者可以随机选择。
2.通过某些条件过滤选择某些被调查者参与调查的判断抽样法。在许多情况下,由于研究对象可能仅限于一部分居民,因而有时采用这种方法能节省大量经费。
3.大多数种类的研究––––产品测试、街访、座谈会,只要不是属于要进行总体推论的大多数项目都可使用非概率抽样法。
(三) 概率抽样与非概率抽样比较
非概率抽样:不是依据随机原则抽选样本,故无法使用样本信息对总体参数进行推断。但其操作简单,时效快、成本低,对专业基础要求不高;适用于探索性的研究。
概率抽样:依据随机原则抽选样本,故可以使用样本信息对总体参数进行推断,计算估计误差。要求较高的专业基础知识,成本费用较高。
知识点三:搜集数据基本方法
(一)搜集数据的基本方法
实际中,为研究一些特定的社会经济问题,还需要进行一些特定的调查,如市场调查机构进行的市场调查等。这些调查也是取得直接统计数据的重要手段。特别是随着市场经济的发展,市场调查越来越被人们所重视,一些企业已逐步把市场调查作为取得企业所需生产和经营信息的重要手段。在实际调查中,搜集数据的基本方法主要有自填式、面访式和电话式。
1.自填式
自填式是指在没有调查人员协助的情况下有被调查者自己填写,完成调查问卷。可以通过调查员分发,通过邮寄方式,通过网络方式等等。要求被调查者具有一定的文化素养,能够正确理解调查问卷的具问题并进行回答。优点是管理方便,成本低。缺点是回收率较低。
2.面访式
又称访问调查或派员调查,它是调查者与被调查者通过面对面地交谈从而得到所需资料的调查方法。访问调查的方式有标准式访问和非标准式访问两种。标准式访问又称结构式访问,它是按照调查人员事先设计好的、有固定格式的标准化问卷,有顺序地依次提问,并由受访者作出回答;非标准式访问又称非结构式访问,它事先不制作统一的问卷或表格,没有统一的提问顺序,调查人员只是给一个题目或提纲,由调查人员和受访者自由交谈,以获得所需的资料。优点是获得的数据质高;缺点是成本较高。
3.电话式
电话调查是调查人员利用电话同受访者进行语言交流,从而获得信息的一种调查方式。电话调查具有时效快、费用低等特点。随着电话的普及,电话调查的应用也越来越广泛。电话调查可以按照事先设计好的问卷进行,也可以针对某一专门问题进行电话采访。用于电话调查的问题要明确、问题数量不宜过多。
此外,搜集数据的方法还有观察式等。
(二)选择数据搜集方法的影响因素
1.抽样框中的有关信息
2.目标总体的特征
3.调查问题内容
4.有形辅助物的使用
5.实施调查的资源
6.管理与控制
7.质量要求
三种搜集数据方法的特点
项目 | 自填式 | 面访式 | 电话式 |
调查时间 | 慢 | 中等 | 快捷 |
调查费用 | 低 | 高 | 低 |
问卷难度 | 要求容易 | 可以复杂 | 要求容易 |
有形辅助物的使用 | 中等利用 | 充分利用 | 无法利用 |
调查过程控制 | 简单 | 复杂 | 容易 |
调查员发挥的作用 | 无法发挥 | 充分发挥 | 一般发挥 |
回答率 | 最低 | 较高 | 一般 |