目录

  • 1 绪论
    • 1.1 课前学习要求
    • 1.2 什么是统计学
    • 1.3 为什么要学习统计学
    • 1.4 描述性统计和推断性统计
    • 1.5 无处不在的统计学
    • 1.6 第一章课后作业
  • 2 数据产生
    • 2.1 课前学习要求
    • 2.2 基本概念
    • 2.3 数据来源
    • 2.4 随机性和抽样误差
    • 2.5 数据类型
    • 2.6 数据还能“撒谎”?
    • 2.7 第二章课后作业
    • 2.8 统计报告案例阅读
  • 3 数据展示
    • 3.1 课前学习要求
    • 3.2 数据预处理
    • 3.3 数据整理
    • 3.4 数据展示
    • 3.5 统计图表的使用
    • 3.6 数据可视化
    • 3.7 第三章课后作业
  • 4 数据描述
    • 4.1 课前学习要求
    • 4.2 数据分布特征描述
    • 4.3 相关和因果
    • 4.4 第四章课后作业
  • 5 概率论
    • 5.1 课前学习要求
    • 5.2 什么是概率
    • 5.3 离散型随机变量
    • 5.4 连续性随机变量
    • 5.5 中心极限定理的百年
  • 6 统计推断
    • 6.1 课前学习要求
    • 6.2 抽样分布
    • 6.3 大数定律和中心极限定理
    • 6.4 数值型数据统计推断
    • 6.5 假设检验
    • 6.6 品质数据统计推断
  • 7 统计指数
    • 7.1 课前学习要求
    • 7.2 基本概念
    • 7.3 总指数
    • 7.4 指数体系
    • 7.5 常用经济指数
什么是统计学


欢迎来到这个充满随机性和不确定性的世界学习!统计学的世界里有未知、假设、实验、调查和博弈等等,当然也有统计学家们超爱的抛硬币和掷骰子。学习这门课程的主要目的在于学会统计学有什么用处以及如何使用,当我们在现实世界遇到和统计相关的问题时,我们知道如何用统计学看待问题、思考问题和解决问题。相信我,这种机会有很多很多……



看几个例子来了解一下:

合理的数据也可能不靠谱

号外号外,吃巧克力还能减肥!(真的假的?)

相信奇闻异事还是数据?

住的地方离某高压变电站不到1公里,高压变电站的电磁辐射会不会对身体健康有影响?


数据来源相当可靠

一般而言,数据总比定性化的结论要显得可靠些,因此人们喜欢在汇报、讲演、报告等场合使用数据,但是数据是否值得相信得首要问题是回答数据得来源。

2015年,英国政府推出政策,同意父亲和母亲共同休产假,一年后的统计数据结果显示,只有1%的父亲选择了休产假,这是否能说明父亲休产假的人数太少了?

原来数据来源中百分比是通过休产假的父亲与所有男性的比值,而不是有资格休产假的父亲做分母!

在一项针对“母亲是否比父亲更强烈地认识到父亲教育孩子的重要性”调查中,有82.35%的母亲认为父亲教育孩子更重要,是否就是最终的结论?

真实情况是调查样本是17对两地分居的父母,孩子出生后由母亲一人抚养,一年后团聚。针对这样的调查设计,有例有怀疑数据来源就存在偏差。假设孩子出生后由父亲一人抚养是否会得到不同的结论呢?

相关性可信吗?

某调查结果显示,家里电子设备越多的家庭孩子学习成绩越好。有报道称周末住院的病人死亡率比周一高15%!看到此类消息时最好不要急于做出判断,而是先问一下有没有忽略什么?有教师说,线上公开课(比如MOOC)教学比传统教学效果好。

孩子学习成绩好可能是因为家庭富裕,才有钱买更多的电子设备,有可能通过更多的课外辅导而使得成绩高。周末死亡率高的原因更可能是因为医院人手不够而不是星期日效应。线上公开课教学效果好可能是因为学生年龄较大,理解力较强,因此表现较好。

以上种种都是涉及两个变量的相关性的结论,在相信一个变量可能影响另一个变量前,先要看看是否由隐藏的可以解释的变量被忽略了,好的统计研究一定要考虑较多的变量,这需要仔细思考。

什么是统计学

统计学能帮你估计你是否能被意向学校录取,企业管理人员用它来制定销售计划,购物网站通过数据来预测你接下来可能购买的产品,你可以用天气预报的数据决定你明天要穿什么,决策者用来判断是否应该加大对学前儿童教育的投入等等。统计学是围绕数据而展开的,所以理解并正确运用数据很重要。

统计学和数据有关,是要对数据进行处理的,那么是否处理数据的工作就是统计学的工作呢?

当然不是!不是和数据(或者说数字处理相关)的工作都是统计学要解决的问题,也不能把所有处理数据的工作人员都当成统计专业人员,统计学是要处理数据,但是这里的数据处理和前面所说的数据处理之间有明显的差别。

那么,差别是什么呢?

来看个例子。

简单来讲,统计学利用某种方法获得数据,通过对数据进行描述和推断得到结论,并利用统计图或表进行展示和解释。统计学的所有事情都是围绕数据而展开的,统计学主要是处理不确定性数据的科学,收集、整理、分析和解释数据是统计学的核心内容。

统计学是工具!它能帮助我们理解外界传递给我们的信息,就像眼睛和耳朵能过滤掉外界无用的刺激从而呈现出最精彩的世界一样。统计学也是从万千数据中提取有益的信息,比如剔除个体信息之后所得的全体信息,或者从少部分个体得到的信息推演到全体中的结论。但是,统计学不是万能的,它能帮我们从不确定性中得到有用的信息,但是不能排除不确定性。

##########################################################################

Leo Breiman教授的观点

统计就是“一门收集、分类、处理并且分析事实和数据的科学”。    

Fisher相信统计的存在是为了预测、解释和处理数据的。

#######################################################################                        


推荐阅读文章如下。相关链接:

1. 期刊文章

Leo Breiman,Statistical Modeling: The Two Cultures,Statist. Sci. 16(3): 199-231 (August 2001). DOI: 10.1214/ss/1009213726,https://projecteuclid.org/journals/statistical-science/volume-16/issue-3/Statistical-Modeling--The-Two-Cultures-with-comments-and-a/10.1214/ss/1009213726.full

2. 论文《Statistical Modeling: The Two Cultures》翻译

https://zhuanlan.zhihu.com/p/27263369

3. 统计学的核心到底是什么?

https://mp.weixin.qq.com/s/-5gyDmuqvB4ckSmD37fCJg