目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
数据还能“撒谎”?

二战期间,英国皇家空军计划在飞机上安装后的钢板,以帮助他们抵抗德国战斗机和高射炮的攻击。这些防护板非常沉重,无法用来覆盖整个飞机,因此英国皇家空军开始对结束轰炸任务的飞机进行调查,以收集飞机上子弹孔和弹片孔的位置数据。收集起来的数据显示大多数弹孔位于机翼和飞机尾部,驾驶舱,发动机和油箱的弹孔则非常少,因此我们应该将防护板,安装在机翼和飞机尾部,你同意这种观点吗?

统计学家wald敏锐的意识到这些数据存在幸存者偏差

返航的飞机驾驶舱和油箱之所以很少出现弹孔,是因为这些部位被击中的飞机无法幸存下来并返回英国,因此返航飞机在机翼上出现弹孔的可能性更大,因为这些弹孔的伤害很小,Wald的建议与最初的结论完全相反:他认为应当加固没有弹孔的位置,而不是弹孔最多的位置。这个办法发挥了作用,被击落的飞机数量大幅减少,安全返航,并且可以重新投入战斗的飞机数量大幅增加。


我们会观察人们的工作生活,而且我们会自然而然的根据我们观察到的现象得出结论,但是我们的结论可能会失真,因为这些人所做的事情是他们自己选择的。我们观察到的特点可能并非源于活动,而是反映了选择这种活动的人的个性。

如果有人告诉我们,参加竞争性体育运动的孩子会非常自信,我们不应该认为竞争性体育运动可以增强自信,也许自信的孩子喜欢参与竞争性活动,如果有人告诉我们华尔街的工作人员很有进取心,我们不应该认为华尔街可以培养进去,亲,也许华尔街容易吸引具有进取心的人。我我们会自然而然的根据我们看到的现象得出结论,比如工人的工资,成功的公司,事实上,我们还应当考虑到我们没有看到的事情,比如离职的员工,失败的公司。从某种角度来说,我们没有看到的数据,可能和我们看到的数据一样重要,甚至更加重要,为了避免幸存者偏差,应当从过去开始并向未来展望。