课程门户-章节详情

黄运波

1 课程资料
- 1.1 课程标准
- 1.2 教学日历
- 1.3 教案
2 大数据时代
- 2.1 大数据概述
- 2.2 大数据的4V特征和关键技术
- 2.3 大数据与云计算、物联网的关系
- 2.4 直播录屏
- 2.5 章节测试
3 大数据处理架构Hadoop
- 3.1 平台搭建(VM+UbuntuKylin16.04+Hadoop伪分布式+Hbase伪分布式)
- 3.2 Hadoop简介
- 3.3 Hadoop的版本
- 3.4 Hadoop项目结构
- 3.5 Hadoop安装与配置
- 3.6 Hadoop伪分布式集群搭建
- 3.7 章节测试
4 分布式文件系统HDFS简介
- 4.1 分布式文件系统HDFS简介
  - 4.1.1 HDFS的基本操作实验
- 4.2 HDFS的基本概念
- 4.3 HDFS的体系结构
- 4.4 HDFS的存储策略
- 4.5 HDFS的数据读写过程
  - 4.5.1 第一关：HDFS Java API编程 ——文件读写
- 4.6 第2关：HDFS-JAVA接口之上传文件
- 4.7 章节测试
5 分布式数据HBASE
- 5.1 HBASE简介
- 5.2 HBASE数据模型
- 5.3 HBASE的实现原理
- 5.4 HBASE运行机制
- 5.5 HBASE的应用方案。
- 5.6 章节测试
- 5.7 Hbase数据库的安装
6 MapReduce概述
- 6.1 分布式并行编程方式
- 6.2 MapReduce模型
- 6.3 MapReduce体系结构
- 6.4 MapReduce的工作流程
- 6.5 shuffle操作的过程原理
- 6.6 章节测试
7 Spark简介
- 7.1 Spark简介
- 7.2 Spark与Hadoop的对比
- 7.3 Spark运行架构基本概念和架构设计
- 7.4 Spark运行基本流程
- 7.5 RDD设计与运行原理
- 7.6 Spark应用实例
- 7.7 章节测试
8 流计算
- 8.1 流计算概念及框架
- 8.2 流计算处理流程及应用
- 8.3 章节测试
9 大数据的应用
- 9.1 大数据的应用领域
- 9.2 大数据助力精准防疫
- 9.3 章节测试
10 拓展阅读
- 10.1 区块链
- 10.2 COVID-19疫情的数据科学实践之Python疫情数据爬取
- 10.3 大数据技术工具
  - 10.3.1 交通大数据案例
11 主题讨论
- 11.1 主题讨论

大数据的4V特征和关键技术

无标题.png

1.2大数据的4V特征、关键技术

那么究竟什么是大数据呢，对大数据不同的人有着不同的理解，下面给出几种有关大数据的权威定义：维基百科认为：大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。百度搜索的定义为：“大数据”是一个特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。互联网周刊的定义为："大数据"的概念远不止大量的数据（TB）和处理大量数据的技术，或者所谓的"4个V"之类的简单概念，而是涵盖了人们在大规模数据的基础上可以做的事情，而这些事情在小规模数据的基础上是无法实现的。换句话说，大数据让我们以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见，最终形成变革之力。

IBM给出了大数据的3V定义：规模性、多样性、高速性。而谷歌更是提出了大数据的4V特征：

第一个特征是数据量大，据IDC估测，数据以每年50%速度增长，每两年增长一倍（大数据摩尔定律），人类在最近两年产生的数据量 ≈ 之前产生全部数据量总和。

预计到2020年，全球将总共拥有35ZB的数据量。

相较于2010年，数据量将增长近30倍。

存储单位从过去的GB到TB，直至PB、EB。随着信息技术的高速发展，数据开始爆发性增长。社交网络（微博、推特、脸书）、移动网络、各种智能终端等，都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB；脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术，来统计、分析、预测和实时处理如此大规模的数据。

第二个V是指数据类型繁多：大数据与人类信息密切相关，数据被分为结构化数据和非结构化数据。相对于以往便储存的以数据库/文本为主的结构变化数据，人类信息90%都是非结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等。这些多类型的数据对数据的处理能力提出了更高要求。

典型的人为生成的非结构化数据包括：

文本文件：文字处理、电子表格、演示文稿、电子邮件、日志。

电子邮件：电子邮件由于其元数据而具有一些内部结构，我们有时将其称为半结构化。但是，消息字段是非结构化的，传统的分析工具无法解析它。

社交媒体：来自新浪微博、微信、QQ、Facebook，Twitter，LinkedIn等平台的数据。

网站： YouTube，Instagram，照片共享网站。

移动数据：短信、位置等。

通讯：聊天、即时消息、电话录音、协作软件等。

媒体：MP3、数码照片、音频文件、视频文件。

业务应用程序：MS Office文档、生产力应用程序。

典型的机器生成的非结构化数据包括：

卫星图像：天气数据、地形、军事活动。

科学数据：石油和天然气勘探、空间勘探、地震图像、大气数据。

数字监控：监控照片和视频。

传感器数据：交通、天气、海洋传感器。

在一分钟之内可以产生多少数据：新浪可以发送 2 万条微博，人人网可以发生 30 万次访问，苹果可以下载 4.7 万次应用，百度可以产生 90 万次搜索查询，淘宝可以卖出 6 万件商品。对于快速产生的数据，我们同样也需要快速的处理和分析

大数据的第三个V：处理速度快 (Velocity）：处理速度到底有多快呢？一般从数据的生成到消耗，时间窗口非常小，可用于生成决策的时间非常少。

1秒定律”或者秒级定律,就是说对处理速度有要求,一般要在秒级时间范围内给出分析结果,时间太长就失去价值了.这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别.谷歌(微博)已经开发出更新的技术Dremel，这是一种用来分析信息的方法，它可以在数以千计的服务器上运行，能以极快的速度处理网络规模的海量数据，从而让“大数据”看起来变小。Dremel可在大约3秒钟时间里处理1PB的数据查询请求。

大数据的第4个V是价值密度低，商业价值高。这个概念有点抽象，怎么去理解呢，大数据就是一个海量的数据，在大海中捞金子，这金子就是我们的宝藏。但我们把这块金子经过一系列的分析处理过程之后，我们就能确定是在某一平方米的水域，那么这个密度就会高很多了，这块金子就分布在这一平方米中，在这一块区域去捞金子那么就容易得多了。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒，但是具有很高的商业价值。

大数据技术，就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术，它们成为大数据采集、存储、处理和展现的有力武器。

图片预览