1
计算机应用基础
1.13.1.6 六、大数据处理的基本流程
六、大数据处理的基本流程

大数据的处理流程可以定义为在适合工具的辅助下,对异构数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户。大数据处理的基本流程如图10-4所示。

图10-4 大数据处理的基本流程

1.数据抽取和集成 由于大数据处理的数据来源类型广泛,而其第一步是对数据进行抽取和集成,从中找出关系和实体,经过关联、聚合等操作,再按照统一的格式对数据进行存储,现有的数据抽取和集成引擎有三种:基于物化或ETL方法的引擎、基于中间件的引擎、基于数据流方法的引擎。

2.数据分析 数据分析是大数据处理流程的核心步骤。通过抽取和集成环节,从异构的数据源中获得用于大数据处理的原始数据,用户根据需求对数据进行分析处理,如数据挖掘、机器学习、数据统计,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。

3.数据解释 用户最关心的是数据处理的结果及以何种方式在终端上显示结果。因此采用何种方式展示处理结果非常重要。就目前来看,可视化和人机交互是数据解释的主要技术。

使用可视化技术可以将处理结果以图形方式直观地呈现给用户,如标签云、历史流、空间信息等;人机交互技术可以引导用户对数据进行逐步分析,参与并理解数据分析结果。