-
1 教学内容
-
2 练习
-
3 案例
-
4 扩展学习
第 三 节
直线回归分析需注意的问题
一、回归分析前应绘制散点图
散点呈直线趋势
直线回归分析。
离群点(outlier):图中明显远离主体数据的观测点。
不能简单剔除离群点来提高拟合效果。认真核对原始数据、查清原因,剔除或采用加权直线回归等方法。
二、用残差图考察模型假设条件
直线回归模型的假设条件:因变量与自变量关系为线性、误差服从正态分布且方差齐、各观测值独立等。
残差图(residual plot):考察回归模型的假设条件。各点残差
。

图14.4 残差图
图14.4(a):较理想的残差图。
如果数据符合模型的假设条件, 残差与回归预测值的散点应均匀分布在直线
两侧, 此数据可用于拟合直线回归方程。
图14.4(b):某农药厂工人的工龄 x 与全血胆碱酯酶活性 y 进行直线回归分析得到的残差图。一个离群点, 残差较大。由样品溶血过失误差导致, 删除或改用加权直线回归等方法。
图14.4(c):1~3岁儿童年龄 x 与其锡克反应阳性率 y 经直线回归得到的残差图。残差与回归预测值呈曲线关系,提示在目前的直线回归模型中加入自变量的二次项将改善拟合效果。
图14.4(d):女童年龄 x 与舒张压 y 之间直线回归的残差图。残差呈喇叭口形状,说明误差的方差不齐,采用加权直线回归等。
图14.4(e):残差之间不独立。残差与各观测的测量时间之间存在较强的相关,也不适用直线回归方法。
三、结果的解释及正确应用
反映自变量对因变量数量上影响大小的统计量是回归系数,而不是假设检验的 P 值。
P 值越小只能说明越有理由认为变量间的直线回归关系存在,而不能说明影响越大或关系越强。
直线回归用于预测时,适用范围不应超出样本中自变量的取值范围。
内插(interpolation) : 在正常范围内求得的预测值;外推(extrapolation): 超过自变量取值范围所得的预测值。
无充足理由证明超出自变量取值范围之外两变量间仍呈直线回归关系,应尽量避免不合理的外推。

