任务简介
上一章我们使用了直方图,它很好地展现了变量的分布。但是如果我们需要更多的信息呢?也许我们想要更清晰地看到数值的标准偏差?也许中位数与均值有很大不同,是否存在很多离群值?即,是否存在中位数与均值的较大偏差,使得大部分数值都集中在某一边呢。
这就是箱形图所适合干的事情了。
什么是箱形图
箱形图,如图所示,给我们提供了上述所提及的信息。实线框的底部和顶部总是第一个和第三个四分位(比如 25% 和 75% 的数据),箱体中的横线指示的是第二个四分位(中位数)。像胡须一样的两条线(即上顶线和结尾线)从这个箱体伸出,显示的是数据的范围。实心的圆点表示异常值。
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。其作用主要是用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
任务1:使用箱形图展现各行政区域房价分布
步骤一:撰写代码,读取数据并展现。
| #!/usr/bin/Python |
步骤二:运行代码,可视化的结果如图所示。
箱形图具有较强的数据分布检查和异常值检查功能。从温州市各行政区租赁价格的箱型图(图4.3)可以看出,鹿城存在上侧异常值。易得出,箱形图具有以下作用:
(1)可以直观明了地识别数据中的异常值;
(2)利用箱形图可以判断数据的偏态和尾重;
(3)利用箱形图可以比较不同批次的数据形状。

