第十章 大数据概论
导学
内容及要求
互联网是大数据的载体之一,离开了一定的数据量,大数据就失去了“灵魂”;而避开实际应用,数据量再大也毫无意义。
无论是分析专家还是数据科学家,最终都会探索新的、无法想象的庞大数据集,以期发现一些有价值的趋势、形态和解决问题的方法。由于大多数据源都是半结构化或非结构化的,因此处理数据不但需要花费很多时间,也很难找出解决问题的方法。这也是人们很难就大数据给出一个既严格又准确的定义和大数据发展至今也没有建立起一套完整的理论体系的原因所在。
以企业为例,对企业内部的纷乱数据通过分析进行决策的目的是帮助企业领导者更好地管理企业。一旦人们开始认识到数据的价值,那么驾驭和分析大数据仅仅是现在工作的扩展和延伸。大数据是互联网发展到现今阶段的一种表象或特征,在以云计算为代表的技术创新大幕的衬托下,一些原本很难收集和使用的数据逐渐容易被利用起来,通过各行各业地不断创新,大数据会逐步为人类创造更多的价值。
本章深度结合了国内大数据发展形势,为读者介绍了简单易行的处理大数据所需的工具、过程和方法,以帮助读者了解大数据的基本理论,为今后的工作和学习提供帮助和参考。
重点、难点
重点掌握了解大数据的基本概念、特点和技术架构、五种典型工具。难点是大数据整体技术和关键技术。
大数据(big data)是继物联网之后IT产业又一次颠覆性的技术变革。随着互联网的发展,科学数据处理、商业智能数据分析等具有海量需求的应用变得越来越普遍,面对如此巨大的数据量,无论从形式还是内容上,都已无法用传统的方式进行采集、存储、操作、管理和分析。全球产生的数据量,仅在2011就达到1ZB,根据预测,未来十年全球数据存储量将增长50倍。因此无论是从科学研究还是从应用的角度看,大数据应用已经成为信息社会发展的必然。
第一节 大数据技术概述
大数据已经走进人们的生活且成为整个社会的关注热点。大数据究竟是什么?有哪些相关技术?对普通人的生活会有怎样的影响?大数据未来的发展趋势如何?本章将一一介绍这些问题。
一、大数据的基本概念
早在1980年,著名未来学家阿尔文·托夫勒(Alvin Toffler)便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。大数据或称巨量资料,指的是所涉及的资料规模大到无法透过当时主流软件和硬件工具,对其进行实时撷取、管理、处理并整理成为帮助企业经营决策的信息。
从技术层面看,大数据无法由单台计算机进行处理,必须采用分布式计算架构。其特色在于对海量数据的挖掘,但它又必须依托一些现有的数据处理方法,如云式处理、分布式数据库、云存储与虚拟化技术。
互联网是大数据的主要载体之一,可以说没有互联网就没有大数据。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年就将翻一番,而目前世界上90%以上的数据是最近几年才产生的。此外,数据并非单纯指人们在互联网上发布的信息,全世界的工业设备、汽车、电表上有着无数的数字传感器,随时测量和传递有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,必然会产生海量的数据信息。
大数据的意义在于可以通过人类日益普及的网络行为附带生成,并被相关部门、企业所采集,蕴含数据生产者的真实意图、喜好,其中包括传统结构和非传统结构数据。
从海量数据中“提纯”出有用的信息,对网络架构和数据处理能力而言无疑是巨大的挑战。在经历了几年的批判、质疑、讨论、炒作之后,人们终于迎来了大数据时代。2012年3月22日,美国政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略。大数据将成为信息社会未来的“新能源”。
大数据的核心在于为客户从数据中挖掘出蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式、商业模式的研究和探索将是大数据产业健康发展的关键。
二、IT产业的发展简史
IT产业的几个发展阶段如图10-1所示,每一阶段都是由新兴的IT供应商主导的,他们改变了已有的秩序,重新定义了计算机的规范,并为进入IT领域的新纪元铺平了道路。

图10-1 IT产业的发展阶段
20世纪60年代和70年代的大型机阶段是以Burroughs、Univac、NCR、Control Data和Honeywell等公司为首的。步入80年代后,小型机涌现,这时为首的公司包括DEC、IBM、Data General、Wang、Prime等。
90年代,IT产业进入了微处理器或个人计算机阶段,领先者为Microsoft、Intel、IBM和Apple等公司。自90年代中期开始,IT产业进入了网络化阶段。如今,全球在线的人数已经超过10亿,这一阶段由Cisco、Google、Oracle、EMC、Salesforce等公司领导。IT产业的下一个阶段还没有正式命名,人们更愿意称其为云计算/大数据阶段。
数字信息每天在无线电波、电话电路和计算机电缆中“流淌”。人们周围到处都是数字信息,在高清电视机上看数字信息,在互联网上听数字信息,自己也在不断制造新的数字信息。例如,每次用数码照相机拍照后,都产生新的数字信息;通过电子邮件把照片发给朋友和家人,又制造了更多的数字信息。
不过,没人知道这些流式数字信息有多少,增加速度有多快,其激增意味着什么。正如中国人在发明文字前就有了阴阳学说,并用其解释包罗万象的宇宙世界,西方人用制造、获取和复制的所有1和0组成了数字世界。人们通过拍摄照片和共享音乐制造了大量的数字信息,而公司则组织和管理对这些数字信息的访问、存储,并为其提供强有力的安全保障。
目前世界上主要有三种类型的模数转换,为数字信息量的增长提供动力和服务:胶片影像拍摄转换为数字影像拍摄、模拟语音转换为数字语音及模拟电视转换为数字电视。从数码照相机、可视电话、医用扫描仪到保安摄像头,全世界有10亿多台设备在拍摄影像,这些影像成为数字海洋中最大的组成部分,通过互联网、企业内部网在个人计算机(PC)、服务器及数据中心复制,通过数字电视广播和数字投影银幕播放。
2007年是有史以来人类创造的信息量第一次在理论上超过可用存储空间总量的一年。然而,这并不可怕,调查结果强调现在人类应该也必须合理调整数据存储和管理。
IDC和EMC都认为数字信息量的增长是网络应用的不断增长及人类开始将物理数据转化为数字格式数据所致。被存储下来的数据从本质上说已经发生了重大变化,数字化数据总量增长得很快。30多年前,通信行业的数据大部分还是结构化数据。如今,多媒体技术的普及导致非结构化数据(如音乐和视频等)的数量出现爆炸式增长。虽然30多年前的一个普通企业用户文件也许表现为数据库中的一排数字,但是如今的类似普通文件可能包含许多数字化图片和文件的影像或者数字化录音内容。现在,92%以上的数字信息都是非结构化数据。在各组织和企业中,非结构化数据占所有信息数据总量的80%以上。
另外,可视化是引起数字世界急速膨胀的主要原因之一。由于数码照相机、数码监控摄像机和数字电视内容的加速增长及信息的大量复制趋势,数字世界的容量和膨胀速度超过此前估计。
IDC的数字世界白皮书指出,个人日常生活的“数字足迹”也大大刺激数字世界的快速增长。通过互联网及社交网络、电子邮件、移动电话、数码照相机和在线信用卡交易等多种方式,每个人日常生活都在被“数字化”。数字世界的规模在2006—2011年约膨胀了10倍,如图10-2所示。

图10-2 2006—2011年全球数字信息规模
大数据的快速增长部分归因于智能设备的普及,如传感器、医疗设备及智能建筑(如楼宇和桥梁)。此外,非结构化信息,如文件、电子邮件和视频,将占到未来10年新生数据的90%。非结构化信息的增长部分应归因于高宽带数据的增长,如视频。用户手中的手机和移动设备是数据量爆炸的一个重要原因。目前,全球手机用户共拥有50亿台手机,其中20亿台为智能手机,相当于20世纪80年代20亿台IBM的大型机在消费者手里。
大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的最新科技进步(如纳米技术、生物工程、全球化等)一起,揭开人类新世纪的序幕。
对地球上每一个普通居民而言,大数据有什么应用价值呢?只要看看周围正在变化的一切,你就可以知道,大数据对每个人的重要性不亚于人类初期对火的使用。大数据让人类对一切事物的认识回归本源,其通过影响经济生活、政治博弈、社会管理、文化教育科研、医疗、保健、休闲等行业,与每个人产生密切的联系。
大数据时代已悄然来到我们身边,并渗透到每个人的日常生活之中,谁都无法回避。它提供了光怪陆离的全媒体,难以琢磨的云计算,无法抵御的虚拟仿真环境和随处可在的网络服务。大数据是互联网的产物,即互联网是大数据的载体和平台;同时大数据让互联网生机无限。随着互联网技术的蓬勃发展,一定会迎来大数据的智能时代,即大数据技术和生活紧密相连,它再也不仅仅是人们津津乐道的一种时尚,而成为生活上的向导和助手。中国大数据市场的应用展望如图10-3所示。

图10-3 中国大数据市场的应用展望
三、大数据的来源
大数据的来源非常广,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。
1.信息管理系统 企业内部使用的信息系统,包括办公自动化系统、业务管理系统等。信息管理系统主要通过用户输入和系统二次加工的方式产生数据,其产生的大数据大多为结构化数据,通常存储在数据库中。
2.网络信息系统 基于网络运行的信息系统即网络信息系统,是大数据产生的重要方式,如电子商务系统、社交网络、社会媒体、搜索引擎等都是常见的网络信息系统。网络信息系统产生的大数据多为半结构化数据或非结构化数据,与信息管理系统的区别在于信息管理系统是内部使用的,不连接外部的公共网络,而网络信息系统是指在国际互联网上,用以收集、处理、存储、分发信息的相互关联的组件的集合,其作用在于支持组织的决策与控制。本质上,网络信息系统是信息管理系统的延伸,专属于某个领域的应用,具备某个特定的目的。因此,网络信息系统有着更独特的应用。
3.物联网系统 通过传感器获取外界的物理、化学、生物等数据信息。
4.科学实验系统 主要用于科学技术研究,可以由真实的实验产生数据,也可以通过模拟方式获取仿真数据。
四、大数据产生的三个阶段
自数据库技术诞生以来,产生大数据的方式主要经历了三个发展阶段。
1.被动式生成数据 数据库技术使得数据的保存和管理变得简单,业务系统在运行时产生的数据可以直接保存到数据库中,由于数据是随业务系统运行而产生的,因此该阶段所产生的数据是被动的。
2.主动式生成数据 物联网的诞生,移动互联网的发展大大加速了数据的产生。例如,人们可以通过手机等移动终端,随时随地产生数据。用户数据不但大量增加,同时用户还主动提交了自己的行为,使之进入社交、移动时代。大量移动终端设备的出现,使用户不仅主动提交自己的行为,还和自己的社交圈进行了实时互动,因此数据大量地产生出来,且具有极强的传播性。显然,如此生成的数据是主动的。
3.感知式生成数据 物联网的发展使得数据生成方式得以彻底改变。遍布在城市各个角落的摄像头等数据采集设备源源不断地自动采集并生成数据。
五、大数据的特点
在大数据背景下,数据的采集、分析、处理较之传统方式有了颠覆性的改变,见表10-1。
表10-1 传统数据与大数据的特点比较

六、大数据处理的基本流程
大数据的处理流程可以定义为在适合工具的辅助下,对异构数据源进行抽取和集成,结果按照一定的标准统一存储,利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展示给终端用户。大数据处理的基本流程如图10-4所示。

图10-4 大数据处理的基本流程
1.数据抽取和集成 由于大数据处理的数据来源类型广泛,而其第一步是对数据进行抽取和集成,从中找出关系和实体,经过关联、聚合等操作,再按照统一的格式对数据进行存储,现有的数据抽取和集成引擎有三种:基于物化或ETL方法的引擎、基于中间件的引擎、基于数据流方法的引擎。
2.数据分析 数据分析是大数据处理流程的核心步骤。通过抽取和集成环节,从异构的数据源中获得用于大数据处理的原始数据,用户根据需求对数据进行分析处理,如数据挖掘、机器学习、数据统计,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。
3.数据解释 用户最关心的是数据处理的结果及以何种方式在终端上显示结果。因此采用何种方式展示处理结果非常重要。就目前来看,可视化和人机交互是数据解释的主要技术。
使用可视化技术可以将处理结果以图形方式直观地呈现给用户,如标签云、历史流、空间信息等;人机交互技术可以引导用户对数据进行逐步分析,参与并理解数据分析结果。
七、大数据的数据格式特性
从IT角度来看,信息结构类型大致经历了三个阶段。必须注意的是,旧的阶段仍在不断发展,因此三种数据结构类型一直存在,只是其中一种结构类型往往主导其他结构。
1.结构化信息 这种信息可以在关系数据库中找到,多年来一直主导着IT应用,是关键任务OLTP系统业务所依赖的信息。另外,结构化信息还可对结构数据库信息进行排序和查询。
2.半结构化信息 包括电子邮件、文字处理文件及大量保存和发布在网络上的信息。半结构化信息是以内容为基础的,可以用于搜索,这也是Google等搜索引擎存在的理由。
3.非结构化信息 这种信息在本质上可认为主要是位映射数据。数据必须处于一种可感知的形式中,如可在音频、视频和多媒体文件中被听或看到。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建,或利用一种更易于人们感知和交互的结构。
八、大数据的特征
大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce那样的框架来向数十、数百甚至数千台计算机分配工作。简言之,从各种类型的数据中快速获得有价值信息的能力,就是大数据技术。
大数据呈现出“4V1O”的特征,具体如下:
1.数据量大(volume) 是大数据的首要特征,包括采集、存储和计算的数据量非常大。大数据的起始计量单位至少是100TB。通过各种设备产生的海量数据,其数据规模极为庞大,远大于目前互联网上的信息流量,PB级别将是常态。
2.多样化(variety) 表示大数据种类和来源多样化,具体表现为网络日志、音频、视频、图片、地理位置信息等多类型的数据,多样化对数据的处理能力提出了更高的要求,编码方式、数据格式、应用特征等多个方面都存在差异性,多信息源并发形成大量的异构数据。
3.数据价值密度化(value) 表示大数据价值密度相对较低,需要很多的过程才能挖掘出来。随着互联网和物联网的广泛应用,信息感知无处不在,信息量大,但价值密度较低。如何结合业务逻辑并通过强大的机器算法挖掘数据价值,是大数据时代最需要解决的问题。
4.速度快、时效高(velocity) 随着互联网的发展,数据的增长速度非常快,处理速度也较快,时效性要求也更高。例如,搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法要求实时完成推荐,这些都是大数据区别于传统数据挖掘的显著特征。
5.数据是在线的(on-line) 表示数据必须随时能调用和计算,这是大数据区别于传统数据的最大特征。现在谈到的大数据不仅量大,更重要的是数据是在线的,这是互联网高速发展的特点和趋势。例如好大夫在线,患者的数据和医生的数据都是实时在线的,这样的数据才有意义。如果把他们放在磁盘中或者是离线的,显然这些数据远远不及在线的商业价值大。
总之,无所遁形的大数据时代已经到来,并快速渗透到每个职能领域,如何借助大数据持续创新发展,使企业成功转型,具有非凡的意义。
九、大数据的应用领域
大数据在社会生活的各个领域得到了广泛的应用,如科学计算、金融、社交网络、移动数据、物联网、医疗、网页数据、多媒体、网络日志、RFID传感器、社会数据、互联网文本和文件、互联网搜索索引、呼叫详细记录、天文学、大气科学、基因组学、生物和其他复杂或跨学科的科研、军事侦察、医疗记录,摄影档案馆视频档案、大规模的电子商务等。不同领域的大数据应用具有不同特点,其相应时间、稳定性、精确性的要求各不相同,解决方案也层出不穷,其中最具代表性的有Informatica Cloud解决方案、IBM战略、Microsoft战略、京东框架结构等。
第二节 大数据技术架构
各种各样的大数据应用迫切需要新的工具和技术来存储、管理和实现商业价值。新的工具、流程和方法支撑起了新的技术架构,使企业能够建立、操作和管理这些超大规模的数据集和数据存储环境。
在全新的数据增长速度条件下,一切都必须重新评估。这项工作必须从全盘入手,并考虑大数据分析要容纳数据本身,IT基础架构必须能够以经济的方式存储比以往数量更大、类型更多的数据,此外,还必须能适应数据变化的速度。数量如此大的数据难以在当今的网络连接条件下快速地来回移动。大数据基础架构必须具有分布计算能力,以便能在接近用户的位置进行数据分析,减少跨越网络所引起的延迟。
企业逐渐认识到必须在数据驻留的位置进行分析,提升计算能力,以便为分析工具提供实时响应。考虑到数据速度和数据量,来回移动数据进行处理是不现实的。相反,计算和分析工具可能会移至数据附近。而且,云计算模式对大数据的成功至关重要。
云模型在从大数据中提取商业价值的同时也在驯服它。这种交付模型能为企业提供一种灵活的选择,以实现大数据分析所需的效率、可扩展性、数据便携性和经济性,但仅仅存储和提供数据还不够,必须以新方式合成、分析和关联数据,才能提供商业价值。部分大数据方法要求处理未经建模的数据,因此,可以用毫不相干的数据源比较不同类型的数据和进行模式匹配,从而使大数据的分析能以新视角挖掘企业传统数据,并带来传统上未曾分析过的数据洞察力。基于上述考虑,一般可以构建出适合大数据的四层堆栈式技术架构,如图10-5所示。

图10-5 四层堆栈式技术架构
1.基础层 第一层作为整个大数据技术架构基础的最底层,也是基础层。要实现大数据规模的应用,企业需要一个高度自动化、可横向扩展的存储和计算平台。这个基础设施需要从以前的存储孤岛发展为具有共享能力的高容量存储池。容量、性能和吞吐量必须可以线性扩展。云模型鼓励访问数据并通过提供弹性资源池来应对大规模问题,解决了如何存储大量数据及如何积聚所需的计算资源来操作数据的问题。在云中,数据跨多个结点调配和分布,使数据更接近需要它的用户,从而缩短响应时间,提高效率。
2.管理层 大数据要支持在多源数据上做深层次的分析,在技术架构中需要一个管理平台,即管理层使结构化数据和非结构化数据管理为一体,具备实时传送和查询、计算功能。本层既包括数据的存储和管理,也涉及数据的计算。并行化和分布式是大数据管理平台所必须考虑的要素。
3.分析层 大数据应用需要大数据分析。分析层提供基于统计学的数据挖掘和机器学习算法,用于分析和解释数据集,帮助企业获得深入的数据价值领悟。可扩展性强、使用灵活的大数据分析平台更可成为数据科学家的利器,起到事半功倍的效果。
4.应用层 大数据的价值体现在帮助企业进行决策和为终端用户提供服务的应用。不同的新型商业需求驱动了大数据的应用;反之,大数据应用为企业提供的竞争优势使企业更加重视大数据的价值。新型大数据应用不断对大数据技术提出新的要求,大数据技术也因此在不断的发展变化中日趋成熟。
第三节 大数据的整体技术和关键技术
大数据需要特殊的技术,以有效地处理在允许时间范围内的大量数据。适用于大数据的技术,包括大规模并行处理(massively parallel processing,MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
大数据技术分为整体技术和关键技术两个方面。
一、整体技术
大数据的整体技术一般包括数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。
(1)数据采集:ETL工具负责将分布的、异构数据源中的数据(如关系数据、平面数据)文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
(2)数据存取:关系数据库、NoSQL、SQL等。
(3)基础架构:云存储、分布式文件存储等。
(4)数据处理:自然语言处理(natural language processing,NLP)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又称自然语言理解(natural language understanding,NLU),也称计算语言学(computational linguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(artificial intelligence,AI)的核心课题之一。
(5)统计分析:假设检验、显著性检验、差异分析、相关分析、t-检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、Logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、Bootstrap技术等。
(6)数据挖掘:分类(classification)、估计(estimation)、预测(prediction)、相关性分组或关联规则(affinity grouping or association rules)、聚类(clustering)、描述和可视化(description and visualization)、复杂数据类型挖掘(Text、Web、图形图像、视频、音频等)。
(7)模型预测:预测模型、机器学习、建模仿真。
(8)结果呈现:云计算、标签云、关系图等。
二、关键技术
大数据处理关键技术一般包括大数据采集、大数据预处理、大数据存储与管理、开发大数据安全、大数据分析及挖掘、大数据展现与应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
1.大数据采集技术 数据是指通过RFID射频、传感器、社交网络交互及移动互联网等方式获得的各种类型的结构化、半结构化(或称弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。大数据采集技术重点要突破分布式高速高可靠性数据采集、高速数据全映像等大数据收集技术,高速数据解析、转换与装载等大数据整合技术,设计质量评估模型,开发数据质量技术。
大数据采集一般分为智能感知层和基础支撑层。智能感知层主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等,必须着重掌握针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网资源等基础支撑环境,重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。
2.大数据预处理技术 主要完成对已接收数据的辨析、抽取、清洗等操作。
(1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助人们将复杂的数据转化为单一的或者便于处理的结构和类型,以达到快速分析处理的目的。
(2)清洗:在海量数据中,数据并不全是有价值的,有些数据并不是人们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据进行过滤“去噪”以提取出有效数据。
3.大数据存储与管理技术 大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。大数据存储与管理技术重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术;主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等关键问题;开发可靠的分布式文件系统(distributed file system,DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术,突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术;研究大数据建模技术,大数据索引技术和大数据移动、备份、复制等技术;开发大数据可视化技术和新型数据库技术。新型数据库技术可将数据库分为关系型数据库、非关系型数据库及数据库缓存系统。其中,非关系型数据库主要指NoSQL,分为键值数据库、列存数据库、图存数据库及文档数据库等类型;关系型数据库包含传统关系数据库系统及NewSQL数据库。
4.开发大数据安全技术 改进数据销毁、透明加解密、分布式访问控制、数据审计等技术,突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
5.大数据分析及挖掘技术 大数据分析及挖掘技术改进已有数据挖掘和机器学习技术,开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术,突破基于对象的数据连接、相似性连接等大数据融合技术和用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中人们事先不知道但又是潜在有用的信息和知识的过程。
数据挖掘涉及的技术方法很多且有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库及环球网Web;根据挖掘方法可粗分为机器学习方法、统计方法、神经网络方法和数据库方法。机器学习方法可细分为归纳学习方法(决策树、规则归纳等)、基于范例学习方法、遗传算法等;统计方法可细分为回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费希尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等;神经网络方法可细分为前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等;数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
从挖掘任务和挖掘方法的角度,数据挖掘着重突破以下几个方面。
(1)可视化分析:无论对普通用户还是数据分析专家,数据可视化都是最基本的功能。数据图像化可以让数据“说话”,让用户直观地感受到结果。
(2)数据挖掘算法:图像化是将机器语言翻译给人们看,而数据挖掘算法用的是机器语言。分割、集群、孤立点分析还有各种各样的算法使人们可以精炼数据、挖掘价值。数据挖掘算法一定要能够应付大数据的量,同时还应具有很快的处理速度。
(3)预测性分析:预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。
(4)语义引擎:语义引擎需要设计足够的人工智能以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。
(5)数据质量与管理:数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
6.大数据展现与应用技术 大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。
在我国,大数据将重点应用于商业智能、政府决策、公共服务三大领域。例如,商业智能技术、政府决策技术、电信数据信息处理与挖掘技术、电网数据信息处理与挖掘技术、气象信息分析技术、环境监测技术、警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统)、大规模基因序列分析比对技术、Web信息挖掘技术、多媒体数据并行化处理技术、影视制作渲染技术、其他各种行业的云计算和海量数据处理应用技术等。大数据和云计算之间的区别在于,首先两者在概念上不同,云计算改变了IT,而大数据改变了业务;其次两者的目标受众不同,如在一家公司内,云计算是技术层,大数据则是业务层。但需要指出的是,大数据对云计算有一定的依赖性。
第四节 大数据分析的五种典型工具简介
大数据分析是在研究大量数据的过程中寻找模式、相关性和其他有用的信息,以帮助企业更好地适应变化,并做出更明智的决策。
一、Hadoop
Hadoop是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下优点。
(1)高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。
(2)高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的结点中。
(3)高效性:Hadoop能够在结点之间动态地移动数据,并保证各个结点的动态平衡,因此处理速度非常快。
(4)容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。Hadoop带有用Java语言编写的框架,因此运行在Linux平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,如C++。
二、HPCC
HPCC(高性能计算与通信)是美国实施信息高速公路而实施的计划,该计划的实施将耗资百亿美元,其主要目标是开发可扩展的计算系统及相关软件,以支持太位级网络传输性能;开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。该项目主要由以下五部分组成。
(1)HPCS(高性能计算机系统):内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等。
(2)ASTA(先进软件技术与算法):内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算及高性能计算研究中心等。
(3)NREN(国家科研与教育网格):内容有中接站及10亿位级传输的研究与开发。
(4)BRHR(基本研究与人类资源):内容有基础研究、培训、教育及课程教材,BRHR是通过奖励调查者开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过教育、高性能的计算训练和通信来加大熟练和训练有素的人员的联营,为调查研究活动提供必需的基础架构。
(5)IITA(信息基础结构技术和应用):目的在于保证美国在先进信息技术开发方面的领先地位。
三、Storm
Storm是一种开源软件,一个分布式、容错的实时计算系统。Storm可以非常可靠地处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其他知名的应用企业包括Groupon、阿里巴巴、乐元素、Admaster等。
Storm有许多应用领域,包括实时分析、在线机器学习、不停顿的计算、分布式RPC(远程调用协议,一种通过网络从远程计算机程序上请求服务的协议)、ETL等。Storm的处理速度惊人,经测试,每个结点每秒可以处理100万个数据元组。Storm具有可扩展、容错,容易设置和操作的特点。
四、Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会发起了一项名为Drill的开源项目。Apache Drill实现了Google’s Dremel。
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,Drill已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。
该项目将创建开源版本的Google Dremel Hadoop工具(Google使用该工具来为Hadoop数据分析工具的互联网应用提速)。而Drill将有助于Hadoop用户实现更快查询海量数据集的目的。
Drill项目其实也是从Google的Dremel项目中获得灵感的,该项目帮助Google实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析Google分布式构建系统上的测试结果等。
通过开发Apache Drill开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。
五、Rapid Miner
Rapid Miner是世界领先的数据挖掘解决方案,其数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。其功能和特点如下:
(1)免费提供数据挖掘技术和库。
(2)100%用Java代码(可运行在操作系统中)。
(3)数据挖掘过程简单、强大且直观。
(4)内部XML保证了标准化的格式来表示交换数据挖掘过程。
(5)可以用简单脚本语言自动进行大规模进程。
(6)多层次的数据视图,确保有效和透明的数据。
(7)图形用户界面的互动原型。
(8)命令行(批处理模式)自动大规模应用。
(9)Java API(应用编程接口)。
(10)简单的插件和推广机制。
(11)强大的可视化引擎,许多尖端的高维数据的可视化建模。
第五节 大数据未来发展趋势
大数据逐渐成为人们生活的一部分,它既是一种资源,也是一种工具,使人们更好地探索世界和认识世界。未来大数据发展趋势是怎样的呢?它将如何影响人们的生活呢?大数据提供的并不是最终答案,只是参考答案,它为人们提供暂时帮助,以便等待更好的方法和答案出现。
一、数据资源化
资源化是指大数据成为企业和社会关注的重要战略资源,并已成为大家争抢的新焦点,数据将逐渐成为最有价值的资产。
随着大数据应用的发展,大数据资源成为重要的战略资源,数据成为新的战略制高点。资源不仅仅指看得见、摸得着的实体,如煤、石油、矿产等,大数据已经演变成不可或缺的资源。《华尔街日报》在题为《大数据,大影响》的报告中提到,数据就像货币或者黄金,已经成为一种新的资产类别。
大数据作为一种新的资源,具有其他资源所不具备的优点,如数据的再利用、开放性、可扩展性和潜在价值。数据的价值不会随着它的使用而减低,而是可以不断地被处理和利用。
二、数据科学和数据联盟的成立
1.大数据将催生一些新的学科和行业 数据科学将成为一门专门的学科,被越来越多的人所认知。越来越多的高校开设了与大数据相关的学科课程,为市场和企业培养人才。
一个新行业的出现,必将增加工作职位的需求,大数据催生了一批与之相关的新的就业岗位,如大数据分析师、大数据算法工程师、数据产品经理、数据管理专家等。因此,具有丰富经验的大数据相关人才将成为稀缺资源。
2.数据共享联盟的成立 大数据相关技术的发展,将会创造一些新的细分市场,针对不同的行业将会出现不同的分析技术。但是对大数据而言,数据的多少虽然不意味着价值高低,但是数据越多对一个行业的分析越有利。
以医疗行业为例,如果每家医院想要获得更多病情特征库及药效信息,就需要对数据进行分析,分析之后就能从数据中获得相应的价值。如果想获得更多的价值,就需要对全国甚至全世界的医疗信息进行共享。只有这样,才能通过对整个医疗平台的数据进行分析,获取更准确、更有利的价值。因此,数据共享可能成为一种趋势。
三、大数据隐私和安全问题
1.大数据引发个人隐私、企业和国家安全问题
(1)大数据时代将引发个人隐私安全问题。在大数据时代,用户的个人隐私数据可能在不经意间就被泄露,如网站密码泄露、系统漏洞导致用户资料被盗、手机中的APP暴露用户的个人信息等。在大数据领域,一些用户认为根本不重要的信息很有可能暴露用户的近期状况,带来安全隐患。
(2)大数据时代,企业将面临信息安全的挑战。企业不仅要学习如何挖掘数据价值,还要考虑如何应对网络攻击、数据泄露等安全风险,并且建立相关的预案。在企业用数据挖掘和数据分析获取商业价值的同时,黑客也利用这些数据技术向企业发起攻击。因此,企业必须制定相应的策略来应对大数据带来的信息安全挑战。
(3)大数据时代,大数据安全应该上升为国家安全。数据安全的威胁无处不在,国家的基础设施和重要机构所保存的大数据信息,如与石油、天然气管道、水电、交通、军事等相关的数据信息,都有可能成为黑客攻击的目标。
2.正确合理利用大数据,促进大数据产业的健康发展 大数据时代,必须对数据安全和隐私进行有效保护,具体方法如下:
(1)从用户角度,积极探索,加大个人隐私保护力度。数据来源于互联网上无数用户产生的数据信息,因此,建议用户在运用互联网或者APP时保持高度警惕。
(2)从法律角度,提高安全意识,及时出台相关政策,制定相关政策法规,完善立法。国家需要有专门的法规来为大数据的发展扫除障碍,必须建立健全大数据隐私和安全方面的法律法规。
(3)从数据使用者角度,要以负责的态度使用数据,需要把进行隐私保护的责任从个人转移到数据使用者身上。政府和企业的信息化建设必须拥有统一的规划和标准,只有这样才能有效地保护公民和企业隐私。
(4)从技术角度,加快数据安全技术研发,尤其应加强云计算安全研究,保障云安全。
四、开源软件成为推动大数据发展的动力
大数据获得动力的关键在于开放源代码,帮助分解和分析数据。开源软件的盛行不会抑制商业软件的发展;相反,开源软件将会给基础架构硬件、应用程序开发工具、应用服务等各个方面相关领域带来更多的机会。
以Hadoop为代表的一系列开源技术,成为大数据存储、处理和分析的主力军。各大IT巨头瞄准开源技术,纷纷推出各自的大数据战略。Hadoop作为其中最受关注的技术,已逐渐走向商业化的道路。除Hadoop外,还有很多优秀的技术和工具,包括开源语言R、NoSQL和非结构化数据存储解决方案等,也已成为大数据舞台上不可或缺的成员。未来,开源软件和商业软件并存的局面将持续,两者相互促进,共同发展。
从技术潮流来看,无论是大数据还是云计算,其实推动技术发展的主要力量都来源于开源软件。使用开源软件有诸多优势,因为开源的代码很多人在看、在维护、在检查。了解开源软件和开源模式,将成为一个重要的趋势。
五、大数据在多方位改善八们的生活
大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门。现在,通过大数据的力量,用户希望掌握真正的便捷信息,从而让生活更有趣。
例如,在医疗卫生行业,能够利用大数据避免过度治疗、减少错误治疗和重复治疗,从而降低系统成本,提高工作效率,改进和提升治疗质量;在健康方面,可以利用智能手环来对睡眠模式进行检测和追踪,用智能血压计来监控老年人的身体状况;在交通方面,可以通过智能导航GPS数据来了解交通状况,并根据交通拥挤情况及时调整路径。同时,大数据也将成为智能家居的核心。
大数据也将促进智慧城市的发展,是智慧城市的核心引擎。智慧医疗、智慧交通、智慧安防等,都是以大数据为基础的智慧城市的应用领域,大数据将多方位改善人们的生活。
小结
2013年,大数据应用带来了令人瞩目的成绩。作为新的重要资源,世界各国都在加快大数据的战略布局,制定战略规划。美国政府发起了《大数据研究和发展倡议》,斥资2亿美元用于大数据研究;英国政府预计在大数据和节能计算研究上投资1.89亿英镑;法国政府宣布投入1150万欧元,用于7个大数据市场研发项目;日本在新一轮IT振兴计划中,将发展大数据作为国家战略层面提出,重点关注大数据应用技术,如社会化媒体、新医疗、交通拥堵治理等公共领域的应用。我国的基础研究大数据服务平台应用示范项目正在启动,有关部门正在积极研究相关发展目标、发展原则、关键技术等方面的顶层设计。
目前我国大数据产业还处于发展初期,市场规模仍然比较小,2012年仅为4.5亿元,而且主导厂商仍以外企居多。据估计,2016年我国大数据应用的整体市场规模将突破百亿元量级,未来将形成全球最大的大数据产业带。
总而言之,大数据技术的发展必将解开宇宙起源的奥秘,并对人类社会未来发展有推动作用。
实践与解析
填空题与解析
1.大数据无法由单台计算机进行处理,而必须采用_______计算架构。
【答案与解析】 从技术层面看,大数据无法由单台计算机进行处理,必须采用分布式计算架构。其特色在于对海量数据的挖掘,但它又必须依托一些现有的数据处理方法,如云式处理、分布式数据库、云存储与虚拟化技术。所以答案填“分布式”。
2.大数据的数据结构特征包括__________________。
【答案与解析】 大数据的来源非常广,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。所以答案填“结构化数据、半结构化数据和非结构化数据”。
3.大数据的数据来源非常广,主要有______________________。
【答案与解析】 大数据的来源非常广,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。所以答案填“信息管理系统、网络信息系统、物联网系统、科学实验系统”。
4.自数据库技术诞生以来,生产数据的方式经历了三个主要发展阶段:________________。
【答案与解析】 自数据库技术诞生以来,产生大数据的方式主要经过了三个发展阶段:①被动式生成数据;②主动式生成数据;③感知式生成数据。所以答案填“被动式生成数据、主动式生成数据、感知式生成数据”。
5.__________________是大数据处理流程的核心步骤。
【答案与解析】 数据分析是大数据处理流程的核心步骤。通过抽取和集成环节,从异构的数据源中获得用于大数据处理的原始数据,用户根据需求对数据进行分析处理,如数据挖掘、机器学习、数据统计,数据分析可以用于决策支持、商业智能、推荐系统、预测系统等。所以答案填“数据分析”。
6.大数据呈现出的“4V1O”特征是__________________________。
【答案与解析】 大数据呈现出“4V1O”的特征,具体如下:①数据量大(volume);②多样化(variety);③数据价值密度化(value);④速度快、时效高(velocity);⑤数据是在线的(on-line)。所以答案填“数据量大,多样化,数据价值密度化,速度快、时效高,数据是在线的”。
7.大数据的四层堆栈式技术架构中的四层是_______。
【答案与解析】 一般可以构建出适合大数据的四层堆栈式技术架构:①基础层;②管理层;③分析层;④应用层。所以答案填“基础层、管理层、分析层、应用层”。
8.大数据技术一般包括__________________。
【答案与解析】 大数据需要特殊的技术,以有效地处理在允许时间范围内的大量数据。大数据技术分为整体技术和关键技术两个方面。所以答案填“整体技术和关键技术”。
9.大数据处理分析的五种典型工具是__________________。
【答案与解析】 大数据分析是在研究大量数据的过程中寻找模式、相关性和其他有用的信息,以帮助企业更好地适应变化,并做出更明智的决策。典型的工具是:①Hadoop;②HPCC;③Storm;④Apache Drill;⑤Rapid Miner。所以答案填“Hadoop、HPCC、Storm、Apache Drill、Rapid Miner”。
10.大数据时代将引发________________安全问题。
【答案与解析】 在大数据时代,用户的个人隐私数据可能在不经意间就被泄露。例如,网站密码泄露、系统漏洞导致用户资料被盗、手机里的APP暴露用户的个人信息等。在大数据领域,一些用户认为根本不重要的信息很有可能暴露用户的近期状况,带来安全隐患。所以答案填“个人隐私、企业和国家”。