数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
数据

6.1.1数据基础

1)数据分类

数据的分类和信息与知识的分类相关。从关系模型的角度讲,数据可被分为实体和关系两部分。实体是被可视化的对象;关系定义了实体与其他实体之间关系的结构和模式。关系可被显式地定义,也可在可视化过程中逐步挖掘。实体或关系可以配备属性,例如,一个苹果的颜色可以看作它的属性。实体、关系和属性在数据库设计中被广泛使用,形成关系型数据库的基础。实体关系模型能描述数据之间的结构,但不考虑基于实体、关系和属性的操作。根据不同的数字类型,在可视化中可使用不同的图形实现。

 

6-1数据分类

常规的数据操作包括:数值计算,实体的变换。数据属性可分为离散属性和连续属性。离散属性的取值来自有限或可数的集合,连续属性则对应于实数域。针对这些基本数据类型的交互方法主要有:概括、缩放、过滤、查看细节、关联、查看历史和提取等。这些基本任务构成了可视语言设计的基础。

2)数据相似度

相似度是衡量多个数据对象之间相似的数值,通常位于01之间。与之对应的测度是相异度,其下限是0,上限与数据集有关,可能超过1。邻近度是相似度和相异度的统一描述。计算相似度有很多种方法,一些常用的距离和相似度定义有:

欧几里得距离。

明科夫斯基距离。

余弦距离。

Jaccard相似度。

如果数据对象的属性具有多种类型,则可为每个属性计算相似度,再进行加权平均。在基于密度的数据聚类时,需要衡量数据的密度,通常定义有三类:

欧几里得密度。

概率密度。

基于图结构的密度。

6.1.2数据特征

数据是一种客观存在,是关于事物的事实描述,可通过测量、记录、发现等方式去获得。数据具有五个特征,分别是无限性、原始性、易腐性、易复制性和非均质性。

1)无限性。与实物不同,数据不会因使用而耗尽,反而会随着使用而不断地产生新的数据。数据将成为最基本的客观产物,无论做什么,我们都在产生数据。根据DASAR&T2016-2045年新兴科技趋势》,全球新产生的数据量大约每两年翻一番,因此数据大爆炸是未来发展的必然趋势。

2)原始性。数据是原始的,其本身并没有意义,只有对它进行处理分析得到对人们有价值的信息之后才拥有了意义。信息是数据提炼后的产物;信息经人脑加工后形成知识,知识具有主观性;数据、信息和知识是历史的,而智慧是关于未来的,是人们运用知识做出决策和判断的能力。

3)易腐性。数据是一种易腐品,会随着时间的流逝而迅速贬值。根据IBM2015)数据,60%的非结构化数据在几毫秒内就失去了真正的价值。这表明数据的价值很大程度体现在时效性上,超50%的数据在产生的瞬间就失去了价值,我们将这种现象称作为一秒钟定律。能得到分析处理并产生实际效用的数据则更少,据统计,全球90%的数据从未得到分析和使用。2020年被创建或复制的数据中,只有不到2%被保存并保留到2021年。

4)易复制性。数据可以近乎零成本地进行快速复制,既可以多次循环使用,也可以多人同时使用,不同人之间在使用上不存在直接的利益冲突。易复制性导致数据具有一定程度的非竞争性和非排他性,但需要明确的是数据并不是公共品,它分为公共数据、企业数据和个人数据。

5)非均质性。均质性在生活中普遍存在,例如出厂的商品、油电气等能源。而数据是非均质的,因为同一份数据对不同人的价值完全不同。