9.4.1大数据可视化
科学范式及大数据
科学范式是指科学研究者共同遵守的理论基础和实践规范,它反映了科学的发展阶段和方法论。图灵奖得主,关系型数据库的鼻祖JimGray在2007年加州山景城召开的NRC-CSTB(NationalResearchCouncil-ComputerScienceandTelecommunicationsBoard)大会上,发表了留给世人的最后一次演讲“TheFourthParadigm:Data-IntensiveScientificDiscovery”,提出了科学研究的四范式:
(1)经验范式:以观察和描述自然现象为主,使用归纳法进行科学研究,例如伽利略的物理学。
(2)理论范式:以建立和验证数学模型为主,使用演绎法进行科学研究,例如牛顿的经典力学。
(3)计算范式:以利用计算机进行模拟和仿真为主,使用算法和程序进行科学研究,例如气象学的天气预报。
(4)数据范式:以利用大数据进行分析和探索为主,使用统计和机器学习进行科学研究,例如生物学的基因组学。
其中的“数据密集型”就是现在我们所称之为的“大数据”。
大数据可视化应时代潮流
数据密集型科学成为继实验、理论和计算仿真之后,科学研究手段的第四种范式。从海量涌现的数据中获取知识,验证科学假设,是科学前进和社会发展的驱动力。大数据的研究需要从国家战略高度认识大数据并开始行动,其着力点不仅在于进一步推进信息化建设,更在于以数据推动科研和创新。
显而易见,大数据将引发新的智慧革命:从海量、复杂、实时的大数据中可以发现知识、提升智能并创造价值。面向大数据,需要发展新的计算理论、数据分析、可视分析和数据组织与管理方法,并围绕实际科学和社会问题的求解设计新的工作流程和研究范式,具体有以下几个方面:
(1)数据规模的挑战。大数据的海量性和多样性给数据可视化的存储、传输、处理和展示带来了巨大的压力,需要采用分布式、并行、流式等技术,提高数据可视化的效率和效果。
(2)数据融合的挑战。大数据的来源和类型非常复杂,需要进行数据的清洗、整合、转换等操作,以保证数据的质量和一致性,同时需要进行数据的降维、抽象、聚类等操作,以提取数据的关键信息和知识,为数据可视化提供有效的输入。
(3)图表绘制的挑战。大数据的时效性和可变性要求数据可视化能够实时地反映数据的变化和动态,需要采用动态、交互、智能等技术,提高数据可视化的灵活性和适应性。
(4)图表表达的挑战。大数据的复杂性和多维性要求数据可视化能够准确地传达数据的含义和价值,需要采用多视图、多模态、多层次等技术,提高数据可视化的表现力和沟通力。
(5)系统可扩展的挑战。大数据的发展和变化非常快速,需要数据可视化能够适应不同的数据源、数据格式、数据需求等,需要采用模块化、组件化、标准化等技术,提高数据可视化的可扩展性和可移植性。
(6)快速构建的挑战。大数据的应用场景非常多样,需要数据可视化能够满足不同的用户、任务、目标等,需要采用可视化编程、可视化推荐、可视化定制等技术,提高数据可视化的快速构建能力和用户体验。
(7)数据分析的挑战。大数据的价值主要体现在数据分析的结果和洞察,需要数据可视化能够支持数据的探索、挖掘、预测等分析功能,需要采用统计、机器学习、人工智能等技术,提高数据可视化的分析能力和智能性。
(8)数据交互的挑战。大数据的利用主要体现在数据的应用和决策,需要数据可视化能够支持数据的查询、筛选、比较、注释等交互功能,需要采用触摸、语音、手势等技术,提高数据可视化的交互能力和友好性。
目前,我们处在大数据时代,大规模、高维度、非结构化的数据层出不穷,若将这些数据以可视化形式完美地展示出来,将提高可视化技术展示抽象信息、解决复杂决策问题的能力。因此,可视化与大规模、高维度、非结构化的数据结合是可视化研究的一个重要挑战。
9.4.2以人为中心的探索式可视分析
发展到21世纪的可视化是一个涉及数据挖掘、人机交互、计算机图形学、心理学等的交叉学科。在信息科学领域,分析被定义为一个“从数据中洞悉规律,以便更好地决策”的科学过程。如何将可视化与分析有机地结合,开发高度集成的可视分析系统是未来一个重要的研究课题。
就企业而言,企业进行数据高度集成拥有四大好处:
1.改善现有系统的协作和统一
几乎每个部门的员工都在生成和改进其他业务所需的数据,也就对于访问公司共享数据和个人项目数据有了需求,因此就需要一个安全的解决方案,通过所有业务线的自助服务访问来提供数据,用以解决公司不同组织间的协作和统一问题。
2.节省时间
当公司采取措施正确整合其数据时,这将会大大减少准备、分析数据所需的时间。数据集成的统一视图自动化消除了手动收集数据的需要,员工就无需在需要运行报表或构建应用程序时从头开始建立连接。这样,在这些任务中节省的时间就可以更多地用于分析和执行,以使组织更具生产力和竞争力。此外,使用正确的工具,而不是手动编写集成,除了节约时间之外,还可以为开发团队节省更多的资源。
3.减少错误(和返工)
关于公司的数据资源,如果需要手动收集,员工就必须要知道他们可能需要探索的每个位置和帐户,并在开始之前安装所有必需的软件,以确保他们的数据集完整和准确。如果添加了数据存储库,并且该员工不知情,那么最终的数据集必定将会是不完整的。
此外,如果没有同步数据的数据集成解决方案,则必须定期重新报告以应对任何更改。如果通过数据集成工具自动更新,可以在需要时实时轻松地运行报告。
4.提供更有价值的数据
数据集成工作实际上会随着时间的推移提高业务数据的价值。随着数据集成到集中式系统中,可以识别质量问题并实施必要的改进,最终产生更准确的数据质量分析的基础。
企业进行数据集成后,对数据进行处理,通过大数据分析后就会形成正确有效的方案,从而为企业创造更多的利润价值,进而为社会做出贡献。
但是,目前在大数据处理这一环节上,企业对大数据治理体系缺乏清晰地了解,数据治理专业人员也比较匮乏,而且目前持有数据治理证书的人更是少之又少。为了解决社会对数据管理人才的紧迫需求,规范化数字要素市场,推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护三项要求,DAMA中国特决定建立一个长期的“数据人才”成长计划,面向个人开展培训认证。
可视分析学的基本要素包括复杂数据的表示与变换、可扩展的数据智能可视化和支持用户分析决策的交互方法与集成环境等。它引导的分析推理模式,是探索复杂数据中蕴含的新规律和新现象的催化剂。21世纪初以来,国际上逐步形成了可视分析学的研究热潮。可视分析必将在国民经济、社会生活和国防安全的各个领域引申出重大应用难题。如何结合相关学科的方法,研发面向各个应用领域的高效可视分析系统是一个持久的研究话题。
9.4.3数字可视化人才的需求与培养
数字可视化人才是指能够利用数字化工具和方法,将复杂的数据信息转化为直观的图形或动画,从而帮助人们更好地理解和分析数据的数字人才。数字可视化人才的核心能力包括数据分析、数据呈现、数据传达等。数据分析能力是指能够运用人工智能技术,如机器学习、计算机视觉、自然语言处理等,对数据进行有效的处理、挖掘和建模。数据呈现能力是指能够运用数字化工具,如图形软件、动画软件、交互软件等,对数据进行美观、清晰、有趣的展示。数据传达能力是指能够运用沟通技巧,如故事化、情感化、个性化等,对数据进行有针对性、有说服力、有影响力的传播。
数字可视化人才的需求量很大,且涉及多个行业。根据《2023中国数字人才发展报告》,数字可视化人才可以应用于人工智能、智能制造、智能汽车、金融、生物医药、新零售等11个行业。这些行业都是数字化转型的重点领域,都需要大量的数据支撑,都需要有效的数据沟通。例如,在人工智能行业,数字可视化人才可以帮助人们理解和信任人工智能的决策过程和结果,提高人工智能的可解释性和可靠性。在金融行业,数字可视化人才可以帮助人们掌握和预测金融市场的动态和趋势,提高金融服务的效率和质量。在生物医药行业,数字可视化人才可以帮助人们展示和解读医疗数据和研究成果,提高医疗创新的速度和水平。在新零售行业,数字可视化人才可以帮助人们呈现和推荐商品和服务,提高消费者的体验和满意度。
图9-8近四年数字人才行业分布
尽管数字可视化人才的需求量很大,但是数字可视化人才的培养却面临着诸多挑战。根据《2023中国数字人才发展报告》,数字可视化人才的问题主要有以下三个方面:
(1)人才缺口。数字可视化人才的供给量远远低于需求量,导致人才市场的紧张和竞争。根据报告,2023年中国数字可视化人才的需求量为120万,而供给量仅为40万,缺口率高达66.7%。这意味着每三个数字可视化人才的岗位,只有一个人才可以满足。这种人才缺口不仅限制了数字化转型的速度和质量,也导致了数字可视化人才的薪酬水平的上涨和流动性的增加,给企业的人才管理带来了压力和风险。
图9-9近4年数字人才VS全行业人才紧缺指数
(2)能力不足。数字可视化人才的综合能力和专业能力都有待提高,导致人才质量的不稳定和不均衡。根据报告,数字可视化人才的综合能力主要包括数字化思维、创新思维、学习能力、沟通能力等,而专业能力主要包括数据分析能力、数据呈现能力、数据传达能力等。报告显示,数字可视化人才的综合能力和专业能力的平均得分分别为3.2和3.4(满分为5分),均低于数字化人才的平均水平(分别为3.6和3.8)。这意味着数字可视化人才的能力还有很大的提升空间,尤其是在数字化思维、创新思维、数据分析能力等方面。此外,数字可视化人才的能力水平也存在着不同行业、不同地区、不同层级的差异,导致人才质量的不均衡。
(3)教育不匹配。数字可视化人才的教育体系和教育内容都不适应数字化转型的需求,导致人才培养的效率和效果的下降。根据报告,数字可视化人才的教育体系主要包括学校教育、企业培训、社会学习等,而教育内容主要包括基础知识、专业技能、实践经验等。报告显示,数字可视化人才的教育体系和教育内容都存在着一些问题,如学校教育的课程设置和教学方法不足以培养数字化思维和创新思维,企业培训的内容和形式不足以提升数据分析能力和数据传达能力,社会学习的资源和平台不足以分享数据呈现能力和数据应用案例,基础知识的更新和补充不足以跟上数字化转型的发展,专业技能的深度和广度不足以适应不同行业的需求,实践经验的获取和积累不足以提高数字可视化人才的信心和水平。
数字可视化人才的培养方案
(1)建立数字可视化人才的标准和评估体系,缩小数字可视化人才的人才缺口,以明确数字可视化人才的定义、分类、要求和水平,以及相应的考核和认证方法。这样,可以为数字可视化人才的培养、招聘、管理、激励提供一个统一的参考和依据,也可以为数字可视化人才的自我学习、自我提升、自我展示提供一个有效的途径和平台。
(2)加强数字可视化人才的能力培训和能力提升,提高数字可视化人才的能力水平,弥补数字可视化人才的能力不足和能力差异。从而为数字可视化人才提供更多的学习资源和学习机会,以更新和补充基础知识,以提高和拓展专业技能,以获取和积累实践经验。具体的措施包括,开设更多的数字可视化相关的课程和专业,组织更多的数字可视化相关的培训和竞赛,建立更多的数字可视化相关的社区和平台等。
(3)促进数字可视化人才的教育创新和教育协同,提升数字可视化人才的教育效果,以适应数字化转型的需求和变化,为数字可视化人才提供更多的教育形式和教育内容,以培养数字化思维和创新思维,以适应不同行业的需求和特点,以跟上数字化转型的发展和趋势。在实践中,积极推动数字可视化人才的教育模式和教育理念的变革,推动数字可视化人才的教育资源和教育平台的共享,推动数字可视化人才的教育主体和教育对象的协作等。

