一、一元线性回归模型
(一)回归分析与相关分析
1.回归分析的含义
从一组样本数据出发,确定变量之间的数学关系式;
对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著;
利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度;
2.回归分析与相关分析的区别
相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化;
相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量;
相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制。
(二)一元线性回归模型
1.一元线性回归:在回归分析中,只涉及一个自变量的回归,称为一元回归,若因变量y与自变量x之间为线性关系时称为一元线性回归。
2.回归模型
(1)定义:描述因变量 y 如何依赖于自变量 x 和误差项e 的方程称为回归模型。
(2)表达式:y = b0 + b1 x + e
y 是 x 的线性函数(部分)加上误差项
线性部分反映了由于 x 的变化而引起的 y 的变化
误差项 e 是随机变量
反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响
是不能由 x 和 y 之间的线性关系所解释的变异性
b0 和 b1 称为模型的参数
(3)基本假设
误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的 x 值,y 的期望值为E ( y ) =b0+ b1 x;
对于所有的 x 值,ε的方差σ2 都相同;
误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N( 0 ,σ2 )
独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关
对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关
3.回归方程
(1)定义:描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程。
(2)形式 E( y ) = b0+ b1 x
方程的图示是一条直线,也称为直线回归方程
b0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值
b1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值
4.估计的回归方程
(1)定义:利用最小二乘法,根据样本数据求出的回归方程的估计,称为估计的回归方程。
(2)一元线性回归中估计的回归方程为:
其中:
是估计的回归直线在 y 轴上的截距,
是直线的斜率,它表示对于一个给定的 x 的值,
是 y 的估计值,
是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值。
二、最小二乘估计
1.思想:
(1)使因变量的观察值与估计值之间的离差平方和达到最小来求得
和
的方法。即
;
(2)用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小。
2.公式:
令
,在给定了样本数据后,
是
和
的函数,且最小值总是存在。根据微积分的极值定理可知,函数
有最小值的必要条件是对于
和
的两个偏导数为零,即


整理得: 
解上式方程组,得
三、、回归直线的拟合优度
1.变差
(1) 定义:因变量 y 的取值是不同的,y 取值的这种波动称为变差。
(2)来源
由于自变量 x 的取值不同造成的;
除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响。
(3)对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差
来表示。
2.离差平方和的分解
(1)三个平方和的关系:
总平方和(SST) 回归平方和(SSR) 残差平方和(SSE)
SST = SSR + SSE
(2)三个平方和的意义
总平方和(SST):反映因变量的 n 个观察值与其均值的总离差
回归平方和(SSR):反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和
残差平方和(SSE):反映除x以外的其他因素对y取值的影响,也称不可解释的平方和或剩余平方和
3.判定系数R2
(1)定义:回归平方和占总离差平方和的比例。
(2)公式:
(3)特点:
反映回归直线的拟合程度;
取值范围在[0, 1]之间;
R2 越趋近1,说明回归方程拟合的越好;R2越趋近0,说明回归方程拟合的越差;
判定系数等于相关系数的平方,即R2=(r)2。
4.估计标准误差
(1)定义:实际观察值与回归估计值离差平方和的均方根。
(2)公式:
(3)特点:
反映实际观察值在回归直线周围的分散状况;
对误差项e的标准差s的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量;
反映用估计的回归方程预测y时预测误差的大小。