数据可视化

余凌 胡昌龙 严庆 田萌

目录

  • 1 数据可视化概述
    • 1.1 思政导读
    • 1.2 数据可视化基础
    • 1.3 数据可视化作用
    • 1.4 数据可视化的目标
    • 1.5 数据可视化的特征与应用
    • 1.6 本章课件
    • 1.7 分享阅读-AaronKoblin人性的艺术表达
  • 2 数据可视化原理
    • 2.1 思政导读
    • 2.2 视觉
    • 2.3 色彩
    • 2.4 视觉编码原则
    • 2.5 数据可视化流程
    • 2.6 本章课件
    • 2.7 分享阅读-
  • 3 数据可视化图表
    • 3.1 思政导读
    • 3.2 理解图表
    • 3.3 图表元素的增强控制
    • 3.4 图表类型选择
    • 3.5 图表制作技巧
    • 3.6 本章课件
    • 3.7 数据可视化图表基础及图表设计+第二次作业要求
    • 3.8 分享阅读-
  • 4 数据可视化设计
    • 4.1 思政导读
    • 4.2 设计原则与技巧
    • 4.3 可视化设计步骤
    • 4.4 可视化框架
    • 4.5 本章课件
    • 4.6 分享阅读-
  • 5 时变数据可视化
    • 5.1 思政导读
    • 5.2 时间属性的可视化
    • 5.3 地理空间数据可视化
    • 5.4 文本与文档可视化
    • 5.5 本章课件
    • 5.6 分享阅读-
  • 6 数据挖掘与数据处理
    • 6.1 思政导读
    • 6.2 数据
    • 6.3 数据集
    • 6.4 数据获取与预处理
    • 6.5 数据存储
    • 6.6 数据组织与管理
    • 6.7 数据挖掘与分析
    • 6.8 本章课件
    • 6.9 分享阅读-
  • 7 数据可视化工具
    • 7.1 Echarts
    • 7.2 Python集成开发环境Jupyter
    • 7.3 本章课件
  • 8 数据可视化评测实例
    • 8.1 案例1
    • 8.2 案例2
    • 8.3 本章课件
  • 9 数据可视化趋势及挑战
    • 9.1 思政导读
    • 9.2 数据可视化资源
    • 9.3 数据可视化研究
    • 9.4 未来趋势
    • 9.5 研究挑战
    • 9.6 本章课件
  • 10 数据可视化案例
    • 10.1 经典数据可视化案例
    • 10.2 用Excel实现数据可视化—快速实现业务报表可视化
    • 10.3 “好服务”零售品牌文献研究现状分析
    • 10.4 数据分析师招聘可视化分析
    • 10.5 长江中游城市群创新网络演变可视化
    • 10.6 分享阅读-2020级优秀作品展示
    • 10.7 分享阅读-2021级学生优秀作品
  • 11 电子商务数据可视化实例
    • 11.1 电商数据的采集与预处理
    • 11.2 商品数据分析
    • 11.3 市场数据与竞争数据分析
    • 11.4 流量与转化数据分析
    • 11.5 电商采购与销售数据分析
    • 11.6 库存数据分析
    • 11.7 客户画像分析
  • 12 推荐课外阅读
    • 12.1 《深度学习——智能时代的核心驱动力量
    • 12.2 《AIGC:智能创作时代》
    • 12.3 《天才与算法》
    • 12.4 《5000天后的世界》
    • 12.5 《AI未来进行式》
    • 12.6 《数据型思维》
    • 12.7 《做成大事的艺术》
    • 12.8 《新媒体的语言》
    • 12.9 《开放式创新》
    • 12.10 《别相信直觉》
    • 12.11 《为什么伟大不能被计划》
    • 12.12 《智识分子》
    • 12.13 《算法的陷阱》
    • 12.14 《崛起的超级智能》
    • 12.15 《人工不智能:计算机如何误解世界》
    • 12.16 《销售脑科学》
未来趋势

9.3.1开放数据

开放数据(opendata)是指可以被任何人自由地获取、使用、再利用和再分享的数据,只要遵守署名和共享方式的要求。根据英国开放知识基金会(OpenKnowledgeFoundation)的定义,开放的数据具备以下3项基本元素:

1)非歧视:数据若开放,对任何人都开放。

2)授权开放:授权条款应确保使用者可自由免费访问、使用、演绎、拷贝及传播。

3)机器可读:数据格式应当是可以被计算机读取的。比如csv格式而非PDF格式。

开放数据的概念源于开放知识的理念,即知识应当属于全人类,而不是被少数人垄断或控制,目的是促进数据的流通和共享,提高数据的价值和效益,支持数据驱动的创新和决策,增进社会的透明度和公平性。美国政府在2009年签署《开放政府指令》(OpenGovernmentDirective),重点开放政府预算、支出、选举三项数据。同年美国政府数据开放平台上线,这是世界上第一个政府开放数据平台。目前全球有60多个国家加入了开放政府合作计划(OpenGovernmentPartnership)。随着越来越多的企业意识到数据的价值。建立在开放数据上的商业活动带动了巨大的经济价值。开放数据的来源有很多,主要包括以下几类:

1)政府开放数据:政府机构或公共部门发布的数据,通常涉及政策、法规、预算、采购、服务、基础设施、人口、环境等方面,例如国家统计局、国家卫生委员会、国家发改委等部门的数据。

2)科学开放数据:科研机构或学术期刊发布的数据,通常涉及科学实验、观测、模拟、调查等方面,例如中国科学院、中国社会科学院、中国科技期刊开放数据平台等机构的数据。

3)商业开放数据:企业或组织发布的数据,通常涉及市场、产品、用户、竞争、行业等方面,例如阿里巴巴、腾讯、百度等公司的数据。

4)社会开放数据:社会团体或个人发布的数据,通常涉及公益、文化、教育、娱乐等方面,例如公益组织、非政府组织、博物馆、图书馆等机构的数据。

随着数据技术的发展和数据意识的提高,开放数据的数量和质量将不断增加,开放数据的流通和共享将更加便捷,开放数据的应用和创新将更加多样。尽管目前可以利用的开放数据越来越多,有利于数据的可视化,但这也同时意味着很多人都在使用相同的数据。要让自己的可视化图表与众不同,就必须要创建自己的数据集。创建自己的数据集的一种方法是将多个数据集组合在一起,但有些情况下,也可以将非标准数据变成可用的数据集,丰富自己可视化图表的内容。

9.3.2情感故事

金融时报的数据可视化记者JanePong2017年全球深度报道大会说到:我们并不会经常把数据和情感联系在一起,但是将数据和情感一分为二在很大程度上是错误的。数据可视化可用来迎合人们的情感,让他们能够更好地认识主题。FedericaFragapaneAlexPiacentini路线背后的故事就是一个很好的例子,这是一个有关追踪六名寻求庇护者前往意大利的视觉故事。Pong说:这只是一份数据,但是它展现出了很多的细节,并鼓励读者参与到故事中来。

 

9-3“路线背后的故事,追踪寻求庇护者的旅行

长期以来,我们对数据可视化的理解,都是一种量化的工具,作为工具来帮助我们从复杂而零落的数据中更加轻易地识别事物发展的趋势或模式,从而为分析研究提供支持,帮助我们更加的理性明智的进行决策或描述复杂的实践所需要的一个重要手段。对大部分人来说,真正有意义的不是这些数据本身,而是数据背后蕴含的信息,这些数据所传达的信息意义。那么到底什么是可视化?很多人认为数据可视化,等同于就是把各种表格数据输出各种可以描述数据的图形。谷歌网站上对数据可视化的理解:数据可视化是信息和数据的图形化表示。通过使用图表、图形和地图等可视化元素,数据可视化工具提供了一种可访问的方式来查看和理解数据中的趋势、异常值和模式。

欧美国家经历着疫情的时候,总会发生这样囤积物资的情况,从消费心理学的角度来看,当外在环境超乎个人的掌控时,消费者通常会通过购物来重获主控权,当消费者同时抢购特定的商品时,主要是为了满足3个方面的心理需求:自主性:即有权决定买什么;关联性:与社会上其他人作出相同的举动;能力感:认为自己买对东西。从另外一个角度来看,人们总是倾向于解决较小的难题,并将风险降低。若从一个设计师的角度去思考,是否有更好的方法引导进行量化物资需要,帮助我们在危机的时候理性购买所需而不是囤积物资,避免资源浪费,以帮助更需要的人获得所需。数据可视化提供了一个方向。

数据可视化的情感故事作用是指利用数据可视化的技术和方法,来表达和传递数据背后的情感和价值,从而激发用户的认知和体验,增强数据的影响力和说服力。数据可视化的情感故事作用有以下几个方面:

1)增加数据的吸引力和记忆力。通过使用不同的颜色、形状、动画、声音等视觉和听觉元素,数据可视化可以创造出具有情感特征的图像,如温暖、冷静、激烈、平和等,从而吸引用户的注意力,增强用户的记忆和理解。

2)增强数据的表现力和沟通力。通过使用不同的故事结构、叙事方式、视角和语气,数据可视化可以构建出具有情感内涵的故事,如悲喜、喜怒、惊奇、恐惧等,从而表达数据的意义和目的,增强数据的沟通和共鸣。

3)增进数据的互动性和参与性。通过使用不同的交互模式、反馈机制、个性化设置等,数据可视化可以提供具有情感体验的互动,如探索、发现、创造、分享等,从而增进用户的参与和满足,增强数据的影响和行动。

数据和可视化并不是仅仅为了验证某个假设或者为了发现某些变化的趋势,这些数据真实客观的反映着真实的生活和世界,怎样找到这些数据和真实生活之间的联系,或许有更多的方式。数据和可视化并不一定只能和冰冷、不争的事实相关,它可以帮助数据可视化设计者更好地理解和满足用户的情感需求,也可以帮助数据可视化用户更好地感知和利用数据的情感价值。

9.3.3响应式设计

越来越多的数据可视化设计人员需要考虑他们的作品如何在移动设备上展现。有一种方法是为桌面提供完整、详细的可视化,然后在移动设备上将图形分解为一些基本的图形,并用不同的数据表现出来。

响应式设计是一种使网页能够根据不同的设备和屏幕尺寸进行自适应布局和外观调整的设计方法。响应式设计的主要技术包括媒体查询、灵活网格、液态图像等,它们可以实现网页的内容、结构、样式和交互的动态变化,以提高用户的体验和满意度。

金融时报的一带一路是一个基于数据可视化的专题报道,展示了一带一路倡议的历史、沿线国家、贸易往来、投资项目等方面的信息。该专题报道采用了响应式设计的方法,使得网页在不同的设备和屏幕尺寸下都能保持清晰和美观的效果:

1)媒体查询:提供了多个媒体查询,根据屏幕的宽度和高度,调整了网页的字体大小、颜色、对齐方式、边距等样式属性,以适应不同的屏幕分辨率和方向。例如,在较小的屏幕上,标题和正文的字体会变小,导航栏会变为折叠式,图表的宽度会缩小,地图的高度会增加等。

2)灵活网格:该网页使用了百分比、视口单位、弹性盒子等方式,创建了一个灵活的网格布局,使得网页的元素可以根据屏幕的大小和比例进行自动调整和排列。例如,在较大的屏幕上,网页的元素会分为两列或三列,而在较小的屏幕上,网页的元素会堆叠为一列,以充分利用屏幕的空间。

3)液态图像:设置了max-widthobject-fitsrcset等属性,实现了图像的液态缩放和自适应裁剪,使得图像可以根据屏幕的大小和比例进行自动缩放和适配,而不会失真或溢出。例如,在较大的屏幕上,图像会显示为原始尺寸和比例,而在较小的屏幕上,图像会显示为适合屏幕的尺寸和比例,或者只显示图像的重要部分。

 

9-4《金融时报》整版刊文章:一带一路基础设施投资的经济绩效与对策建议

移动数据可视化提供了一种可移植的方式来监视与业务或组织的所有领域相关的最重要的高级KPI和数据。它提供了随时随地通过移动设备进行访问的便捷性,并显示了关键指标。数字时代移动设备数据可视化的主要优点如下:

1)快速决策:通过各种数据连接器和数据源提供数据和信息,并将其整合到一个集中的自定义数据可视化中,可以快速地从数据分析见解中提取价值,并以可访问的方式与关键利益相关者共享,从而产生一种可以改善业务运作方式的行动。

2)即时访问分析:由于移动数据可视化非常灵活,几乎可以从任何地方访问,因此可以在任何给定时间制定关键业务计划。这些移动设备数据可视化具有交互性,用户友好性,这意味着在动手之前利用洞察力并通过在移动设备上进行可视化来深入探究特定的信息包非常简单。对分析的这种即时,一致的访问还将改善内部通信流程,减少数据碎片,同时在整个组织中提供更高水平的数据驱动价值。

3)公司范围内的商业智能:由于移动设备数据可视化可以允许用户以灵活,可访问的格式分析,研究和交流关键业务数据,因此移动数据可视化可以使各个部门的人们共享和利用数字数据,从而使信息更准确,以及可带来持续改进,增长和发展的有价值的业务决策。

但移动设备上的数据可视化与电子大屏幕上的数据可视化也有些许不同之处,首先表现在设计上的差异,由于移动屏幕比数据大屏小得多,因此可视化图表元素的比例和位置将有所不同,可以轻松调整各种性能数据可视化图表示例,以提供可通过移动设备访问的主要指标和KPI的概览。数据大屏具有令人难以置信的交互性和可视性,但由于它们是专为大屏幕使用而设计的,因此它们的选项和分析级别通常比移动应用程序数据可视化更深入。移动数据可视化根本不提供该级别的深度分析,因为它们旨在用于已经提到的高级且最重要的数据。但是使用正确的数据可视化平台或解决方案,移动设备和数据大屏之间的差异就很小。实际上,如果使用一个强大的数据可视化搭建平台,移动设备和数据大屏的数据可视化就可以相互连接,形成一个无缝的数据分析系统,让数据可视化的分析转化为有效的行动。

目前,在移动设备上实现可视化仍然非常困难,但是它一直都在不断地发展,人们研究新技术的脚本不会停止。

9.3.4简单程度

数据简化理念

大数据时代,数据的花样和增量迅猛增加,当信息多到无法检索、存储、使用的地步,人类社会就会发生信息爆炸知识爆炸数据爆炸数据泛滥的情况。数据简化理念是指为了应对诸如此类的问题,采用各种方法和技术,对数据进行清理、压缩、降维、抽象等操作,以减少数据的数量和复杂度,提高数据的质量和效率,使数据更加简单和确定。数据简化理念可以帮助人们节省时间和精力,提高数据驱动的能力和效果,也可以帮助机器减少计算和存储的负担,提高数据处理和分析的性能。

数据简化技术(DataSimpTech)框架

数据虽然本质是承载、传递或储存信息、知识的,但数据不同于信息,数据有独立于信息、知识的存在边界。大道至简。我们在数据科学和技术这个认知维度和技术实现上,大部分类型的数据资源都可以归纳成为其对应的三级数据简化技术(DataSimpTech3Tier)框架:顶层的领域概念设计;中层的应用实体表示;底层的数据元素实现。

1)顶层(领域概念设计)

在最顶层是设计数据资源所处领域概念体系,完成信息到数据资源、甚至数据资产的界定。同时,数据资源的主题域和数据拥有者的思路一致,可以直接运用于最终呈现的人机交互界面。例如,数据资源BI技术元数据的报表和分析,继而被映射到数据源元数据反映的源系统中。
2)中层(应用实体表示)

承载具体数据的是技术应用实体,例如各种数据载体、纸质文件、电子文件、数据库、数据表、多维立方体和报表等。这种数据应用的实体表示或信息载体,表示、承载相关信息或观测结果的数据,既可以是源数据、数据集合,也可以是从可用的源表或数据表单直接获取信息。
3)底层(数据元素实现)

最细微的微观底层,是数据技术类概念元素的实现。例如,最细节的元数据存在于字段、类别、值域等数据元素层。业务用户广泛使用的元数据业务中,业务术语映射到技术元数据的对应层,包括电子文件格式,或数据库、数据表、多维立方体和报表等的各种维度/度量。

数据可视化简化

数据可视化的趋势之一就是简化。在某些方面,这可能是对复杂的可视化的一种解决方案。而且,简单的可视化效果在手机上往往呈现得更好。2017年天津PM2.5指数日历图就是一个很好的例子。图9-512个月份每一天的PM2.5指数组成,用不同颜色图例显示PM2.5变化情况。在这张图中日历就是数据可视化简单而又强大的表现方式。

 

9-5日历图案例——2017年天津PM2.5指数

9.3.5建设数字中国

党的二十大报告指出,加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。数字经济已经成为经济发展的新动能,是未来竞争的关键变量。自1994年接入国际互联网以来,中国数字经济发展历经将近30年。走过两个百年奋斗目标、两个五年规划的交汇点,中国数字经济发展的重点正由注重效率、速度,转为关注质量与公平,高质量之路已经开启,机会与挑战同时到来。国家十四五规划将加快数字化发展,建设数字中国单独成篇,提出加快数字经济、数字社会、数字政府、数字生态;各地加大数字经济布局力度,超半数省市会出台数字经济相关规划,涵盖数字经济”“数字城市”“数字政府等领域。因此,数字可视化的发展受到了数字技术和数据环境的影响,随着数字技术的不断进步和数据环境的不断变化,数字可视化也面临着新的机遇和挑战,需要不断地进行技术创新和方法研究,以适应时代的需求和潮流。

 

9-6中共中央国务院印发《数字中国建设整体布局规划》

建设数字中国是数字时代推进中国式现代化的重要引擎,是构筑国家竞争新优势的有力支撑。根据中共中央国务院印发《数字中国建设整体布局规划》,数字技术和数据环境的主要特点和趋势有以下几个方面:

1)数字技术的普及和融合。数字技术已经成为社会经济发展的重要支撑和引领,数字基础设施、数字产业、数字服务等不断完善和发展,数字化、网络化、智能化等水平不断提高,数字经济、数字社会、数字政府等不断形成和发展,数字技术与各个领域和行业的融合和创新不断深化和拓展。

2)数据资源的增长和开放。数据资源已经成为社会经济发展的重要要素和资源,数据的规模、类型、价值等不断增长,数据的获取、存储、处理、分析等能力不断增强,数据的流通、共享、开放等机制不断完善,数据的应用、创新、保护等政策不断出台,数据的利用和管理不断规范和优化。

3)数字治理的创新和协同。数字治理已经成为社会经济发展的重要手段和目标,数字技术和数据资源为治理的理念、方法、模式等提供了新的思路和工具,数字化的决策、执行、监督等提高了治理的效率和效果,数字化的参与、协商、反馈等增强了治理的公开和民主,数字化的协作、协调、协同等促进了治理的整合和协作。

 

9-7数字中国建设整体框架

基于这些特点和趋势,数字可视化的发展也将呈现出以下几个未来趋势:

1)数字可视化的多样化和个性化。数字可视化将根据不同的数据源、数据类型、数据需求等,提供多样化的可视化方案和产品,满足不同的用户、任务、目标等,同时也将根据用户的偏好、习惯、反馈等,提供个性化的可视化定制和推荐,增强用户的体验和满意度。

2)数字可视化的智能化和交互化。数字可视化将利用人工智能、机器学习、深度学习等技术,提高可视化的智能性和自适应性,实现可视化的自动生成、自优化、自演化等,同时也将利用触摸、语音、手势、虚拟现实等技术,提高可视化的交互性和沉浸性,实现可视化的多维探索、多模态表达、多感官体验等。

3)数字可视化的协作化和社交化。数字可视化将利用云计算、物联网、区块链等技术,提高可视化的协作性和分布性,实现可视化的多方共享、多点同步、多层协作等,同时也将利用社交网络、社区平台、众包模式等技术,提高可视化的社交性和参与性,实现可视化的多人评论、多群互动、多众贡献等。

4)数字可视化的融合化和创新化。数字可视化将与其他领域和行业进行深度的融合和创新,如与数字艺术、数字媒体、数字教育等进行跨界的融合和创新,提高可视化的美感、传播、教育等功能,如与数字医疗、数字金融、数字安全等进行专业的融合和创新,提高可视化的诊断、预测、保护等功能。

数字可视化是一个充满活力和潜力的领域,它将随着数字技术和数据环境的变化而不断发展和创新,为各个领域和行业的数字化转型和数字治理提供重要的支撑和引领,也为社会的进步和发展带来新的机遇和挑战。