数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
数据获取与预处理

6.3.1数据获取

大数据时代的特点之一是数据开始变得廉价,即收集数据的途径多种多样,成本相对低廉。通常来说,数据获取的手段有实验测量、计算机仿真与网络数据传输等。传统的数据获取方式以文件输入/输出为主。在移动互联网时代,基于网络的多源数据交换占据主流。数据获取的挑战主要有数据格式变换和异构异质数据的获取协议两部分。数据的多样性导致不同的数据语义表述,这些差异来自不同的安全要求、不同的用户类型、不同的数据格式、不同的数据来源。

数据获取协议作为一种通用的数据获取标准,在科研领域应用比较广泛。该协议通过定义基于网络的数据获取句法,以完善数据交换机制,维护、发展和提升数据获取效率。数据获取协议以文件为基础,提供数据格式、位置和数据组织的透明度,并以纯Web化的方式与网格FTP/FTPHTTPSRB、开放地理空间联盟、天文学等协议兼容。

经过数年发展,第二代数据获取协议DAP2已提供了一个与领域无关的网络数据获取协议,业已成为NASA/ESE标准,最新的DAP4提供了更多的数据类型和传输功能,以适用更广泛的环境,直接满足用户要求。

6.3.2数据预处理

在解决质量问题后,通常需要对数据集进行进一步的处理操作,以符合后续数据分析步骤要求。这一类操作通常被归为数据预处理步骤。常用的预处理操作有:

1)合并

将两个以上的属性或对象合并为一个属性或对象。合并操作的效用包括:有效简化数据;改变数据尺度;减少数据的方差。

2)采样

采样是统计学的基本方法,也是对数据进行选择的主要手段,在对数据的初步探索和最后的数据分析环节经常被采用。统计学家实施采样操作的根本原因是获取或处理全部数据集的代价太高,或者时间开销无法接受。如果采样结果大致具备原始数据的特征,那么这个采样是具有代表性的。最简单的随机采样可以按某种分布随机从数据集中等概率地选择数据项。当某个数据项被选中后,它可以继续保留在采样对象中,也可以在后继采样过程中被剔除。在前一种模式中,同一个数据项可能被多次选中。采样也可分层次进行:先将数据全集分为多份,然后在每份中随机采样。

3)降维

维度越高,数据集在高维空间的分布越稀疏,从而减弱了数据集的密度和距离的定义对于数据聚类和离群值检测等操作的影响。将数据属性的维度降低,有助于解决维度灾难,减少数据处理的时间和内存消耗;可以更为有效地可视化数据;降低噪声或消除无关特征等。降维是数据挖掘的核心研究内容,常规的做法有主元分析、奇异值分解、局部结构保持的LLPISOMAP等方法。

4)特征子集选择

从数据集中选择部分数据属性值可以消除冗余的特征、与任务无关的特征。特征子集选择可达到降维的效果,但不破坏原始的数据属性结构。特征子集选择的方法包括:暴力枚举法、特征重要性选择、压缩感知理论的稀疏表达方法等。

5)特征生成

特征生成可以在原始数据集基础上构建新的能反映数据集重要信息的属性。三种常用的方法是:特征抽取、将数据应用到新空间、基于特征融合与特征变换的特征构造。

6)离散化与二值化

将数据集根据其分布划分为若干个子类,形成对数据集的离散表达,称为离散化。将数据值映射为二值区间,是数据处理中的常见做法。将数据区间映射到[01]区间的方法称为归一化。属性变换将某个属性的所有可能值一一映射到另一个空间的做法称为属性变换,如指数变换、取绝对值等。标准化与归一化是两类特殊的属性变换,其中标准化将数据区间变换到某个统一的区间范围,归一化则变换到[01]区间。