-
1 教学内容
-
2 练习
-
3 案例
-
4 扩展学习
统计学的若干基本概念
总体(population):是所有同质观察单位某种观察值(变量值)的全体。
调查某地2007年正常成年男子的红细胞数
观察对象:该地2007年的正常成年男子
观察单位:是每个人
观察值:是每个人测得的红细胞数
总体:该地2007年全部正常成年男子的红细胞数
无限总体:指总体中的个体是无限的,如研究药物疗效,某病患者就是无限总体。
有限总体:指总体中的个体是有限的,它是指特定时间、空间中有限的研究个体。
样本(sample):是总体中抽取部分观察单位的观测值的集合。
从该地2007年正常成年男子中,抽取300人,分别测得其红细胞数。
参数(parameter):是总体的某些数值特征。如,某市的原发性高血压患病率。
统计量(statistic):是根据样本算得的某些数值特征。如,根据几百人的调查数据所算得的样本人群原发性高血压患病率。
样本含量 (sample size) :指样本包含的观察单位数。
变量(variable):是观测单位的某种特征或属性。变量值就是变量的观测值。
数据或资料(data) :是由具有若干变量值的观测单位所组成的。
变量类型:
1. 定量变量:取值为具体数值
(1)连续变量:有度量衡单位
(2)离散变量:家庭人口数
2. 定性变量:取值用语言描述
(1)有序分类变量或等级变量:学历
(2)无序分类变量:
①二项分类变量:性别
②多项分类变量:血型
变量类型决定统计分析方法的选择。
各种类型变量间可进行转换,如血压值为定量变量,可转换为高血压、正常血压和低血压。
变量转换具有方向性,从定量到半定量,再到定性,但这种转换后的数据信息量将减少。
变量类型与观察单位有关。
如:患病与否?
若以人为观察单位,是二项分类变量;
若以乡为观察单位,患病率则为定量变量。
误差(error):泛指实测值与真实值之差。
分为两类:随机误差和非随机误差。
随机误差:是一类不恒定的、随机变化的误差,往往使实测值无方向性地围绕着某一数值左右波动。不可避免,但服从正态分布,可通过统计学方法进行分析。如,抽样误差。
非随机误差:
1. 系统误差:常称偏性或偏倚(bias),是指使实测值系统偏离真实值的、具有方向性的误差,其产生原因可知或可掌握,如仪器未校正、操作不规范等。通过完善研究设计、规范操作流程、改进技术手段等方式,可降低或消除。
2. 过失误差:是在研究过程中由于研究者的偶然失误造成的,例如误读检验结果、记录失误等。
概率(probability, P ) :是度量随机事件发生可能性大小的数值。
根据某一研究目的,在一定条件下对某一随机现象(不确定现象)进行观测,其结果在事先是不确定的,称为随机事件(random event),简称事件。
如果某事件不可能发生,其发生概率为0;
如果某事件肯定要发生,那么其发生概率为1;
概率取值:界于0与1之间。
小概率事件(small probability event):当某事件发生的概率小于或等于0.05时,称为小概率事件,其含义是该事件发生的可能性很小,进而认为它在一次抽样中不可能发生,即小概率事件原理。

