
Google技术“三件宝”——大数据的技术起源
1.谷歌公司的三大技术
谷歌的两位创始人拉里·佩奇(Larry Page)和谢尔盖·布林(Sergey Brin)。2003~2004年,谷歌发表了关于GFS、MapReduce和BigTable的3篇论文。谷歌发明了GFS、MapReduce和Big Table三大技术,也奠定了大数据和云计算两个领域的基础。
2.Google文件系统(GFS)
Google文件系统(Google File System,GFS)是Google公司为了存储海量搜索数据而设计的专用文件系统。
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。GFS运行于廉价的普通硬件上,并提供容错功能。GFS的出现改变了之前海量数据的存储必须依靠昂贵硬件和复杂运营的状况。
3.MapReduce
MapReduce是一种超大集群上并行计算的编程模型,也是一个用于处理和生成超大数据集(大于1TB)的作业调度。MapReduce架构的程序能够在大量普通配置的计算机上实现并行化处理,实现的项目包括大规模的算法图形处理、文字处理、数据挖掘、机器学习等。

4.BigTable
Big Table是Google设计的分布式数据存储系统,是用来查询和处理海量数据的一种非关系型数据库。Big Table是一个稀疏的、分布式的、持久化存储的多维度排序映射,能快速、可靠地处理PB级别数据,并且能够部署到上千台机器上。
大数据技术的开源实现
1.Hadoop系统
由于谷歌的技术并不对外开放,Yahoo以及开源社区协同开发了Hadoop系统,这相当于GFS和MapReduce的开源实现。Hadoop之父Doug Cutting受到谷歌技术的启发。
Hadoop实际上就是谷歌三宝的开源实现,HDFS对应GFS,Hadoop MapReduce对应Google MapReduce,HBase对应Big Table。
2.Hadoop是对传统数据处理的改变
在Hadoop发展壮大之前,只有大中型企业才会进行大数据分析,而且不同来源的数据迁移较难,数据很难实现交互。
传统数据处理技术的架构主要基于关系型数据库管理系统(RDBMS),如果某些数据不是在该RDBMS中,则用户认为不是业务数据。
大数据的关键技术
大数据的关键技术涵盖数据存储、处理和应用等多方面的技术。根据大数据的处理过程,大数据技术体系包括大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展示与可视化等环节。大数据技术是数据统计技术的发展,它已经从简单的数据统计,发展到了对数据的存储、挖掘、分析和应用能力的创新。


