数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
数据可视化作用

1.2.1记录信息

将浩瀚烟云的信息记录成文、世代传播的有效方式之一是将信息成像或采用草图记载。图1-18左图展示了意大利科学家伽利略的手绘月亮周期可视化图,右图是达芬奇绘制的描绘科学发现的作品之一。

 

1-18左:1616年伽利略关于月亮周期的绘图;右:达芬奇绘制的人头盖骨可视化。

 

1-192023年武汉市地铁路线图

1-19为武汉市地铁线路图,三个比较明显的特征:以颜色区分路线;路线大多以水平、垂直、45度角三种形式来表现;路线上的车站距离与实际距离不成比例关系。图中每条线路一目了然,在有限的空间内显示全部站点信息,屏蔽掉了普通地图中的干扰信息,达到了有效传播信息的目的。

1.2.2分析推理

由于可视化可以清晰地展示证据,它在支持上下文的理解和数据推理方面也有独到的作用。1831年起,欧洲大陆暴发霍乱,当时的主流理论是毒气或瘴气引起了霍乱。英国医生JohnSnow着手研究1854年8月底伦敦布拉德街附近居民区爆发的一场霍乱。Snow调查病例发生的地点和取水的关系,发现73个病例离布拉德街水井的距离比附近其他任何一个水井的距离都更近。在拆除布拉德街水井的摇把后不久,霍乱停息。Snow绘制了一张布拉德街区的地图,标记了水井的位置,每个地址(房子)里的病例用图符显示。图符清晰地显示了病例集中在布拉德街水井附近,这就是著名的鬼图(GhostMap)。

 

1-20“鬼图”帮助发现霍乱流行原因

数据分析的任务通常包括定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联、关系等。通过将信息以可视的方式呈现给用户,将直接提升对信息认知的效率,并引导用户从可视化结果分析和推理出有效信息。这种直观的信息感知机制,极大降低了数据理解的复杂度,突破了常规统计分析方法的局限性。可视化能显著提高分析信息的效率,其重要原因是扩充了人脑的记忆,帮助人脑形象地理解和分析所面临的任务。图1-21展示了一个图形化计算的例子。

 

1-21可视化可有效地扩充记忆和内存空间,从而辅助图形化计算。左:对奇数的和的可视化,1+3+5+7+9=25。

1.2.3证实假设

下面以1986年1月28日美国“挑战者”号航天飞机事故为例,说明可视化在证实假设中的重要性。

“挑战者”号爆炸事故的直接起因是两个O形密封圈的故障。事后调查总统委员会的报告提道:信息沟通渠道的障碍导致做出了错误的发射决定。这一决定建立在不完全甚至是使人容易误解的信息基础之上。根据以往记录,这种O形密封圈成功飞行的最低气温是华氏53度,实验测试成功的最低温度是华氏25度。在发射之前,生产商与NASA进行了三次电话会议,生产商工程部门提出了气温过低的担心。工程师建议在高于华氏53度的情况下发射,但是NASA对工程师所设定的温度下限(华氏53度)不能理解和接受,生产商则始终难以说服NASA。事实上,在生产商提交NASA的图表上,工程师只列出了橡胶圈爆裂的情形,虽然简单明了,却没有足够的说服力。

为了证实这个假设,Tufte(1997)教授绘制的可视化图表清晰地展现了低温与密封圈成功的关系,见图1-22。

 

1-22Tufte(1992)教授完成的温度与密封圈发射成功的关系的可视化

1.2.4交流思想

交流思想,传播思想。可视化这个东西本质上包含媒体,画作,等等一众内容,内容及其丰富的同时,对于信息的传递也就起着关键的作用。

我在这里提及三个字:信、达、雅。

1.3小节我会提出我对于数据可视化的“信”、“达”、“雅”的理解。