1
计算机应用基础
1.13 第十章 大数据概论
第十章 大数据概论

导学

内容及要求

互联网是大数据的载体之一,离开了一定的数据量,大数据就失去了“灵魂”;而避开实际应用,数据量再大也毫无意义。

无论是分析专家还是数据科学家,最终都会探索新的、无法想象的庞大数据集,以期发现一些有价值的趋势、形态和解决问题的方法。由于大多数据源都是半结构化或非结构化的,因此处理数据不但需要花费很多时间,也很难找出解决问题的方法。这也是人们很难就大数据给出一个既严格又准确的定义和大数据发展至今也没有建立起一套完整的理论体系的原因所在。

以企业为例,对企业内部的纷乱数据通过分析进行决策的目的是帮助企业领导者更好地管理企业。一旦人们开始认识到数据的价值,那么驾驭和分析大数据仅仅是现在工作的扩展和延伸。大数据是互联网发展到现今阶段的一种表象或特征,在以云计算为代表的技术创新大幕的衬托下,一些原本很难收集和使用的数据逐渐容易被利用起来,通过各行各业地不断创新,大数据会逐步为人类创造更多的价值。

本章深度结合了国内大数据发展形势,为读者介绍了简单易行的处理大数据所需的工具、过程和方法,以帮助读者了解大数据的基本理论,为今后的工作和学习提供帮助和参考。

重点、难点

重点掌握了解大数据的基本概念、特点和技术架构、五种典型工具。难点是大数据整体技术和关键技术。

大数据(big data)是继物联网之后IT产业又一次颠覆性的技术变革。随着互联网的发展,科学数据处理、商业智能数据分析等具有海量需求的应用变得越来越普遍,面对如此巨大的数据量,无论从形式还是内容上,都已无法用传统的方式进行采集、存储、操作、管理和分析。全球产生的数据量,仅在2011就达到1ZB,根据预测,未来十年全球数据存储量将增长50倍。因此无论是从科学研究还是从应用的角度看,大数据应用已经成为信息社会发展的必然。