阅读后结合所学思考:回归的前生与今世发生了哪些变化?
来源网址:回归分析方法(一)线性回归的起源和弗朗西斯·高尔顿_身高 (sohu.com)
(提示:选中网址后面内容,将出现笔形图表,点击后将出现文章来源网址)
高尔顿与回归分析的起源
为了研究父代与子代身高的关系,高尔顿和他的学生卡尔•皮尔逊搜集了1078对夫妇及其儿子的身高数据。他发现这些数据的散点图大致呈直线状态,也就是说,总的趋势是父辈的身材偏高(矮)时,儿子的身材也偏高(矮)。具体来说,以每对夫妇的平均身高作为自变量,他们的一个成年儿子的身高作为因变量,父母身高和儿子身高的关系可以拟合成一条直线,即儿子的身高y与父母平均身高x大致可归结为下述等式:
y=33.73+0.516*x (单位为英寸)
根据换算公式1英寸=0.0254米, 1米=39.37英寸。单位换算成米后:
Y= 0.8567+0.516*X (单位为米);
假如父母辈的平均身高为1.75米,则预测子女的身高为1.7597米。
这个拟合关系表明通过父辈的身高可以预测子女(成年)的身高。假如父母辈的平均身高为1.70米,则预测子女的身高约为1.73米。(大家可以用自己身边的家庭身高数据作为测试样本验证一下这个公示的准确度哦!)
通过对这些数据进一步深入分析,高尔顿发现了一个更为有趣的现象:当父辈高于平均身高时,他们的儿子身高比父辈更高的概率要小于比他们更矮的概率;父辈矮于平均身高时,他们的儿子身高比他们更矮的概率要小于比他们更高的概率。结合前文的线性关系可以得出结论:身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们的父母的平均身高高。它反映了一个规律,即儿子的身高,有向他们父辈的平均身高回归的趋势。对于这个一般结论的解释是:大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化。
1855年,高尔顿将上述结果发表在论文《遗传的身高向平均数方向的回归》中,这就是统计学上“回归”定义的第一次出现。虽然“回归”的初始含义与线形关系拟合的一般规则无关(“线性”和“回归”是研究父子身高得出的两个方面的结论),但“线形回归”的术语却因此沿用下来,作为根据一种变量预测另一种变量或多种变量关系的描述方法。

