背景知识
数据可视化是数据科学家工作中的重要组成部分。在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解。创建可视化方法确实有助于使事情变得更加清晰易懂,特别是对于大型、高维数据集。在项目结束时,以清晰、简洁和引人注目的方式展现最终结果是非常重要的,因为数据分析结果的受众一般是非技术型客户,只有这样他们才可以理解。
Matplotlib是一个流行的 Python 库,可以用来简单地创建数据可视化方案。但每次创建新项目时,设置数据、参数、图形和排版都会变得非常繁琐和麻烦。在这篇博文中,我们将着眼于 5个数据可视化方法,并使用 Python Matplotlib 为他们编写一些快速简单地函数。下面这张图表,可帮助我们在工作中的需求与应用选择正确的可视化图型!
也有很多第三方的可视化利器,比如ECharts。Echarts是百度开源的一个数据可视化纯Javascript(JS) 库。主要用于数据可视化,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9/10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观、生动、可交互、可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达图)、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,同时提供标题、详情气泡、图例、值域、数据区域、时间轴、工具箱等7个可交互组件,支持多图表、组件的联动和混搭展现。
此外,第三方包seaborn也是在Matplotlib的基础上发展起来的更高级的API封装,从而使得作图更加容易。在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用Matplotlib就能制作具有更多特色的图,可以将seaborn视为matplotlib的补充,而不是替代物。
第一次课学习内容:
第二次课学习内容:
本项目总体任务简介
(1)使用箱形图展现租赁价格分布
(2)使用散点图展现面积与租赁价格的关系
(3)使用饼图展现不同行政区域的可租赁房源占比
(4)使用折线图可视化房间数与租赁价格的关系
(5)使用热力图展现地理位置的影响
课程用实验报告,请下载并在完成后上交
doc版
ipynb版
项目可用资源