1
计算机应用基础
1.13.3.1 一、整体技术
一、整体技术

大数据的整体技术一般包括数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。

(1)数据采集:ETL工具负责将分布的、异构数据源中的数据(如关系数据、平面数据)文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

(2)数据存取:关系数据库、NoSQL、SQL等。

(3)基础架构:云存储、分布式文件存储等。

(4)数据处理:自然语言处理(natural language processing,NLP)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又称自然语言理解(natural language understanding,NLU),也称计算语言学(computational linguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(artificial intelligence,AI)的核心课题之一。

(5)统计分析:假设检验、显著性检验、差异分析、相关分析、t-检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、Logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、Bootstrap技术等。

(6)数据挖掘:分类(classification)、估计(estimation)、预测(prediction)、相关性分组或关联规则(affinity grouping or association rules)、聚类(clustering)、描述和可视化(description and visualization)、复杂数据类型挖掘(Text、Web、图形图像、视频、音频等)。

(7)模型预测:预测模型、机器学习、建模仿真。

(8)结果呈现:云计算、标签云、关系图等。