7.2 大数据与云计算
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
7.2.1云计算
1.云计算定义
对云计算的定义有很多种说法。现阶段广为接受的是美国国家标准与技术研究院(NIST)给出的定义,云计算是指一种按使用量付费的模式,在这种模式情况下,用户只要进入服务商提供的可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),只需投入很少的管理工作或与服务供应商进行很少的交互就可以获得可用的、便捷的、按需的网络访问。“云”是网络、互联网的一种比喻说法。
2.云计算的特征
(1)支持异构基础资源
(2)支持资源动态扩展
(3)支持异构多业务体系
(4)支持海量信息处理
(5)支持按需分配、按量计费
3.云计算的分类
云计算根据其不同的属性可以从多个角度进行分类。
(1)按运营模式分类:公有云、私有云、混合云。
(2)按服务模式分类:最下的一层是 IaaS、再上一层是 PaaS平台即服务、最后一层是 SaaS软件即服务。
4.云计算技术体系结构
云计算技术体系结构:物理资源层、资源池层、管理中间件层和SOA构建层。
5.云计算平台应用
(1)Google的云计算平台与应用
]Google File System 文件系统
]MapReduce分布式编程环境
]分布式的锁机制Chubby
]分布式大规模数据库管理系统BigTable
(2) IBM蓝云计算平台
“蓝云”建立在IBM大规模计算领域的专业技术基础上,基于由IBM软件、系统技术和服务支持的开放标准和开源软件。“蓝云”基于IBM Almaden研究中心的云基础架构,包括Xen和PowerVM虚拟化、Linux操作系统映像以及Hadoop文件系统与并行构建。
(3)亚马逊的弹性计算云
亚马逊的弹性计算云服务也和IBM的云计算服务平台不一样,亚马逊不销售物理的云计算服务平台,没有类似于“蓝云”一样的计算平台。亚马逊将自己的弹性计算云建立在公司内部的大规模集群计算的平台之上,而用户可以通过弹性计算云的网络界面去操作在云计算平台上运行的各个实例(Instance),而付费方式则由用户的使用状况决定,即用户仅需要为自己所使用的计算平台实例付费,运行结束后计费也随之结束。
6.云存储
(1)DAS存储(直连式存储Direct-AttachedStorage)
(2)NAS存储 (网络接入存储Network-AttachedStorage)
7.2.2 大数据
云时代的来临,大数据的关注度也越来越高,大数据分析常和云计算联系到一起,实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据技术不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
1.大数据定义
对于“大数据(Big Data)”的定义,比较权威的有以下几种:
研究机构Gartner定义: 大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
维基百科定义:大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理并整理成为帮助企业经营决策目的的资讯。
麦肯锡定义:无法在一定时间内用传统数据库软件工具对其内容进行抓取、 管理和处理的数据集合。
2.大数据的特征
(1)规模性
(2)高速性
(3)多样性
(4)价值性(Value)
3.大数据分析的基础
(1)可视化分析
(2)数据挖掘算法
(3)预测性分析
(4)语义引擎
(5)数据质量和数据管理
4.大数据处理流程
大数据处理要全体、不要抽样,要效率、不要绝对精确,要相关、不要因果,大数据处理处理流程可以概括为四步:采集、导入和预处理、统计和分析以及挖掘。
(1)采集
(2)导入和预处理
(3)统计和分析
(4)挖掘
5.大数据处理工具
(1)Hadoop
(2)HPCC
(3)Storm
(4)Apache Drill
(5)RapidMiner
(6)Pentaho BI

