目录

  • 1 R语言与统计分析概述
    • 1.1 配置R环境与了解R
    • 1.2 统计分析方法概述
    • 1.3 本章小结
    • 1.4 本章习题
    • 1.5 章节测验
  • 2 R语言中的数据管理及预处理
    • 2.1 基本数据类型
    • 2.2 数据结构
    • 2.3 数据的读入和写出
    • 2.4 数据集管理及预处理
    • 2.5 数据集的进阶操作和dplyr包的介绍
    • 2.6 本章小结
    • 2.7 本章习题
  • 3 R的基本统计分析
    • 3.1 基本描述统计量
    • 3.2 汇总分析
    • 3.3 本章小结
    • 3.4 本章习题
  • 4 数据描述与可视化
    • 4.1 统计表格
    • 4.2 数据可视化基础
    • 4.3 数据可视化进阶
    • 4.4 本章小结
    • 4.5 本章习题
  • 5 参数估计与假设检验
    • 5.1 总体、样本和样本量
    • 5.2 参数估计
    • 5.3 假设检验
    • 5.4 单因素方差分析
    • 5.5 本章小结
    • 5.6 本章习题
  • 6 线性回归
    • 6.1 理论
    • 6.2 实例分析
  • 7 逻辑回归
    • 7.1 理论
    • 7.2 实例分析
  • 8 R的聚类分析
    • 8.1 理论
    • 8.2 实例分析
  • 9 R的线性判别分析
  • 10 R的降维分析
  • 11 R的因子分析
本章习题

1. 简述柱状图与直方图的区别。

2. 对于一个定性变量,通常使用哪些图形来对它的特征进行展示。

3. 实训题目:“北美旅游产品数据集”(该数据集在随书源码的data_4_3.csv 文件中)提供了 2926条北美旅游数据观测,包括产品名称、旅游方式、供应商、等级、景点个数、交通情况、用餐情况、是否有自由活动、客户评分、出游人数、评价人数、报价信息、旅游线路等,使用该数据集尝试完成以下分析。

a. 整理数据,提取产品信息、供应商、等级、景点个数、是否有自由活动、周一至周日报价信息并存入新数据集travel_dat,并形成变量说明表。

b. 提取周一到周日报价中的数值部分,计算一周报价的均值(若一周7天均无报价则缺失),并以新变量“Price”存入数据集travel_dat中,剔除平均价格缺失的样本。绘制价格分布直方图并进行优化和简要解读。

c. 提取“Star”变量中的“*钻”字符来表示产品等级,当一个产品包含多个钻级时取最大钻级,并将产品钻级以新变量“Star2”存入数据集travel_dat中,变量类型为因子型。绘制价格对产品等级的分组箱线图,并按每一等级的平均价格由低到高排序,对箱线图结果作出简要解读。

4. 实训题目:RTB(Real Time Bidding,实时竞拍)是目前一种重要的广告投放方式。当前的各种APP都有许多广告位等待广告主投放,投放广告的广告主通过竞拍获得广告位,自然希望自己的广告能有更高的点击量。RTB 数据集包括来自某广告外包承包商(DPS)的 4695 条观测值,存入数据集data_4_4.csv中,因变量为是否点击(1为点击,0为未点击),正样本大约占总样本的20%,请对以下自变量进行分析。

a. 变量atype指ADX平台(互联网广告交易平台),如百度等。绘制箱线图,描述各个ADX平台上的广告点击率情况并进行简要解读。

b. 变量 bidf指竞拍低价,竞拍低价为第二竞拍高价加上一个最小货币单位。选择合适的统计图形,对该变量与因变量之间的关系进行描述分析。

5. 实训题目:使用“数据分析招聘数据集”(该数据集在随书源码的data_4_5.csv文件中),该数据集包括某网站数据分析岗位2018年到2019年招聘情况。该数据集共7493条招聘信息,覆盖北京、上海、深圳、山西、陕西及河北6个地区。

a. 提取该数据中的薪资水平,根据薪资水平,对原始数据进行清洗,删除月薪大于40000元、低于3000元的观测,并以新变量“wage”存入该数据集,对薪资水平进行描述分析并简要解读。

b. 下面我们要对传统金融与金融科技的岗位进行区分,数据集中X3为职位名称,请把名称中包含“数据”“IT”“量化”及“工程师”字样的职位名称归为金融科技岗位,其他作为传统金融岗位。在数据集中增加变量is_tech,金融科技岗位is_tech=1,传统金融岗位is_tech=0。数据集中X0为城市名称,请按照城市名称及岗位类型(传统金融或金融科技)计算岗位的薪资水平均值,绘制柱状图,并给出解读。

c. 绘制不同年限工作经验对应薪酬水平的箱线图,并给出解读。