1. 简述柱状图与直方图的区别。
2. 对于一个定性变量,通常使用哪些图形来对它的特征进行展示。
3. 实训题目:“北美旅游产品数据集”(该数据集在随书源码的data_4_3.csv 文件中)提供了 2926条北美旅游数据观测,包括产品名称、旅游方式、供应商、等级、景点个数、交通情况、用餐情况、是否有自由活动、客户评分、出游人数、评价人数、报价信息、旅游线路等,使用该数据集尝试完成以下分析。
a. 整理数据,提取产品信息、供应商、等级、景点个数、是否有自由活动、周一至周日报价信息并存入新数据集travel_dat,并形成变量说明表。
b. 提取周一到周日报价中的数值部分,计算一周报价的均值(若一周7天均无报价则缺失),并以新变量“Price”存入数据集travel_dat中,剔除平均价格缺失的样本。绘制价格分布直方图并进行优化和简要解读。
c. 提取“Star”变量中的“*钻”字符来表示产品等级,当一个产品包含多个钻级时取最大钻级,并将产品钻级以新变量“Star2”存入数据集travel_dat中,变量类型为因子型。绘制价格对产品等级的分组箱线图,并按每一等级的平均价格由低到高排序,对箱线图结果作出简要解读。
4. 实训题目:RTB(Real Time Bidding,实时竞拍)是目前一种重要的广告投放方式。当前的各种APP都有许多广告位等待广告主投放,投放广告的广告主通过竞拍获得广告位,自然希望自己的广告能有更高的点击量。RTB 数据集包括来自某广告外包承包商(DPS)的 4695 条观测值,存入数据集data_4_4.csv中,因变量为是否点击(1为点击,0为未点击),正样本大约占总样本的20%,请对以下自变量进行分析。
a. 变量atype指ADX平台(互联网广告交易平台),如百度等。绘制箱线图,描述各个ADX平台上的广告点击率情况并进行简要解读。
b. 变量 bidf指竞拍低价,竞拍低价为第二竞拍高价加上一个最小货币单位。选择合适的统计图形,对该变量与因变量之间的关系进行描述分析。
5. 实训题目:使用“数据分析招聘数据集”(该数据集在随书源码的data_4_5.csv文件中),该数据集包括某网站数据分析岗位2018年到2019年招聘情况。该数据集共7493条招聘信息,覆盖北京、上海、深圳、山西、陕西及河北6个地区。
a. 提取该数据中的薪资水平,根据薪资水平,对原始数据进行清洗,删除月薪大于40000元、低于3000元的观测,并以新变量“wage”存入该数据集,对薪资水平进行描述分析并简要解读。
b. 下面我们要对传统金融与金融科技的岗位进行区分,数据集中X3为职位名称,请把名称中包含“数据”“IT”“量化”及“工程师”字样的职位名称归为金融科技岗位,其他作为传统金融岗位。在数据集中增加变量is_tech,金融科技岗位is_tech=1,传统金融岗位is_tech=0。数据集中X0为城市名称,请按照城市名称及岗位类型(传统金融或金融科技)计算岗位的薪资水平均值,绘制柱状图,并给出解读。
c. 绘制不同年限工作经验对应薪酬水平的箱线图,并给出解读。

