-
1 教学内容
-
2 练习
-
3 案例
-
4 扩展学习
假设检验需要注意的问题
(一)数据应来自设计科学严密的实验或调查
样本应具有代表性,应该是从根据研究目的确定的总体中随机抽样获得的。
进行组间比较时,应考虑可比性(即对比组间除处理因素不同外,其他可能影响试验结果的非处理因素在组间应该均衡)。
比较两法疗效,应要求两组除接受的治疗方法不同外,其他可能影响疗效的非处理因素如年龄、性别、病情等在两组间达到均衡。
(二)数据应满足假设检验方法的前提条件
①单样本t检验要求:其总体服从正态分布;②成组t检验要求:两组资料相应的总体分别服从正态分布且方差齐。当不满足这些条件时可使用变量变换将数据转换成正态或者近似正态分布,或使用秩和检验。两小样本均数比较时,若两总体方差不相等,还可使用t’检验。
(三)正确理解P值的含义
P值是指在H0成立的前提下,出现现有样本统计量以及更极端情况的概率。P值越小说明当前样本的证据越倾向于拒绝H0,当P值小于等于事先规定的检验水准时,就拒绝H0。
P值的大小不仅与总体参数间的差别有关,而且与抽样误差等有关。不能认为P值越小,总体参数间的差别越大。P值越小,说明实际观测到的差异与H0之间不一致的程度就越大,越有理由拒绝H0。假设检验只做出拒绝或不拒绝H0的定性结论,但不能给出总体参数间差别大小的结论。
(四)结论不能绝对化
假设检验的结论是根据P值大小和检验水准α做出的,冒着犯错误的风险。拒绝H0,可能犯I型错误;不拒绝H0,可能犯Ⅱ型错误。
检验水准α是根据研究目的人为规定的,有时会出现对同一份资料,按α=0.01不拒绝H0,按α=0.05拒绝H0的情形。
当检验水准确定后,随着样本含量的增大,抽样误差减小,结论有可能从小样本时的不拒绝H0变为大样本时拒绝H0的情况。
还有可能出现对同一份资料,双侧检验不拒绝H0而单侧检验拒绝H0的情况。
当 P 和α的大小接近时,下结论尤其要慎重。
报告结果时要给出:检验水准、单双侧检验、样本量等信息,以便读者判断结论的可靠程度。
(五)统计学意义与实际意义
假设检验的结论包含:
统计学的结论:是否拒绝H0,差异是否有统计学意义;
专业的结论:结合专业知识和统计学结论,给出差异是否具有实际意义。
统计学意义和实际意义有时候是一致的,有时候未必一致,两者并无必然联系,它们是否一致需要根据专业问题的实际背景决定。
例如,一种治疗方法的疗效通过假设检验认为是有统计学意义的,但是疗效提高不大。此时,如果这种治疗方法的费用较低,容易实施,而且毒副作用很小,则可以认为该疗效具有实际意义。反之,则会认为没有实际意义。
统计学意义的判断标准是明确的,通常如果P<0.05就认为差异有统计学意义。但实际意义的判断,不同专业背景的人从不同的角度看问题,给出的结论可能不尽相同。
例如,通过控制体重和合理膳食降血压是一种有益的方法,临床试验结果平均降低收缩压4 mmHg,经检验有统计学意义。对于临床医生来说,降低4 mmHg对病人没有明显的实际意义,但该数值可能具有公共卫生学意义。
假设检验与区间估计的联系
置信区间估计和假设检验都属于统计推断的方法。置信区间用于推断总体参数的可能范围,假设检验用于推断总体参数是否不相等。两者既有区别,又有联系。
就同一份资料,若假设检验的结果是P<α,拒绝H0,接受H1,则其(1-α)的置信区间必定不包括H0所规定的总体参数,反之亦然。置信区间能够给出总体参数的可能范围,而假设检验能够给出一个确切的概率P值。
利用前述资料,计算高原地区成年男性血红蛋白的总体均数的95%置信区间:
H0:μ=μ0=140g/L不在此区间内。
这与按照α=0.05水准拒绝H0的推断结论等价。说明置信区间可以回答假设检验的问题。置信区间能提供假设检验没有提供的信息。置信区间的结果不仅说明高原地区成年男子的血红蛋白的平均水平不等于140 g/L,而且指出高原地区成年男子的血红蛋白的平均水平为148.8~161.2 g/L。
置信区间在回答差别有无统计学意义的同时,还可以提示差别是否具有实际意义。
下图中,置信区间(a)~(c)均不包含原假设H0,意味着相应的差异具有统计学意义;
(a) 提示差异具有实际意义;
(b) 提示可能具有实际意义;
(c) 提示实际意义不大。
图中的(d)与(e)均无统计学意义,但(d) 提示样本量不足,(e) 属于可以接受零假设的情况。
综上所述,置信区间与假设检验的作用是相辅的,若两者结合起来,可以提供更为全面的统计推断信息。
因此,学术期刊编辑建议:论文在报告假设检验结论的同时,应该报告相应的区间估计结果。

图1 置信区间提供的信息

