课程门户-章节详情

大数据分析与处理

黄运波

1 课程资料
- 1.1 课程标准
- 1.2 教学日历
- 1.3 教案
2 大数据时代
- 2.1 大数据概述
- 2.2 大数据的4V特征和关键技术
- 2.3 大数据与云计算、物联网的关系
- 2.4 直播录屏
- 2.5 章节测试
3 大数据处理架构Hadoop
- 3.1 平台搭建(VM+UbuntuKylin16.04+Hadoop伪分布式+Hbase伪分布式)
- 3.2 Hadoop简介
- 3.3 Hadoop的版本
- 3.4 Hadoop项目结构
- 3.5 Hadoop安装与配置
- 3.6 Hadoop伪分布式集群搭建
- 3.7 章节测试
4 分布式文件系统HDFS简介
- 4.1 分布式文件系统HDFS简介
  - 4.1.1 HDFS的基本操作实验
- 4.2 HDFS的基本概念
- 4.3 HDFS的体系结构
- 4.4 HDFS的存储策略
- 4.5 HDFS的数据读写过程
  - 4.5.1 第一关：HDFS Java API编程 ——文件读写
- 4.6 第2关：HDFS-JAVA接口之上传文件
- 4.7 章节测试
5 分布式数据HBASE
- 5.1 HBASE简介
- 5.2 HBASE数据模型
- 5.3 HBASE的实现原理
- 5.4 HBASE运行机制
- 5.5 HBASE的应用方案。
- 5.6 章节测试
- 5.7 Hbase数据库的安装
6 MapReduce概述
- 6.1 分布式并行编程方式
- 6.2 MapReduce模型
- 6.3 MapReduce体系结构
- 6.4 MapReduce的工作流程
- 6.5 shuffle操作的过程原理
- 6.6 章节测试
7 Spark简介
- 7.1 Spark简介
- 7.2 Spark与Hadoop的对比
- 7.3 Spark运行架构基本概念和架构设计
- 7.4 Spark运行基本流程
- 7.5 RDD设计与运行原理
- 7.6 Spark应用实例
- 7.7 章节测试
8 流计算
- 8.1 流计算概念及框架
- 8.2 流计算处理流程及应用
- 8.3 章节测试
9 大数据的应用
- 9.1 大数据的应用领域
- 9.2 大数据助力精准防疫
- 9.3 章节测试
10 拓展阅读
- 10.1 区块链
- 10.2 COVID-19疫情的数据科学实践之Python疫情数据爬取
- 10.3 大数据技术工具
  - 10.3.1 交通大数据案例
11 主题讨论
- 11.1 主题讨论

HBASE运行机制

我们再来看一下Hbase运行机制，主要内容包括HBase系统架构、Region服务器工作原理、Store工作原理、HLog工作原理。

这个图就是Hbase的系统架构，我们主要来看上面HBASE架构。

客户端：

　　使用HBase RPC机制与HMaster和HRegionServer进行通信

　　Client与HMaster进行通信进行管理类操作

　　Client与HRegionServer进行数据读写类操作

Zookeeper：

　　Zookeeper Quorum存储-ROOT-表地址、Master地址

　　Region服务器把自己以Ephedral方式注册到Zookeeper中，Master随时感知各个Region服务器的健康状况

　　Zookeeper避免Master单点问题。

Master：

　　Master没有单点问题，HBase中可以启动多个Master，通过Zookeeper的Master Election机制保证总有一个Master在运行

　　主要负责Table和Region的管理工作：

　　1 管理用户对表的增删改查操作

　　2 管理RegionServer的负载均衡，调整Region分布

　　3 Region Split后，负责新Region的分布

　　4 在RegionServer停机后，负责失效RegionServer上Region迁移

　RegionServer：

　　HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据。

RegionServer管理一些列Region对象；

　　每个Region对应Table中一个Region，Region由多个Store组成；

　　每个Store对应Table中一个Column Family的存储；

　　Column Family就是一个集中的存储单元，故将具有相同IO特性的Column放在一个Column Family会更高效。

Store：

　　HBase存储的核心。由MemStore和StoreFile组成。

　　MemStore是Sorted Memory Buffer。

用户写入数据的流程：Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 触发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后，逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后，触发Split操作，把当前Region Split成2个Region，Region会下线，新Split出的2个孩子Region会被Master分配到相应的RegionServer上，使得原先1个Region的压力得以分流到2个Region上。

由此过程可知，HBase只是增加数据，有所得更新和删除操作，都是在Compact阶段做的，所以，用户写操作只需要进入到内存即可立即返回，从而保证I/O高性能。当用户读取数据时，Region服务器会首先访问MemStore缓存，如果找不到，再去磁盘上面的StoreFile中寻找。

对于缓存的刷新问题，系统会采用周期性把MemStore缓存内容写到磁盘StoreFile文件中，同时清空缓存并写入Hlog里面一个标记，这种设计可以极大地提升HBase的写性能。MemStore对于读性能也至关重要，假如没有MemStore，读取刚写入的数据就需要从文件中通过IO查找，这种代价显然是昂贵的！所以，在一个Store包含多个StoreFile文件。每个Region服务器都有一个自己的HLog 文件，每次都检查这个文件是否发生新一写操作，如果发现，先写MemStore，再刷写到StoreFile，最后删除旧的Hlog文件，从而为用户提供服务。

StoreFile的合并，当storeFile数量达到一定程度时，会影响查找速度，所以系统可以调用store.compact()把多个合并成一个，不过在合并过程中，耗费资源比较大，因此要设置一个阈值，当达到这个值时才合并操作。

对于store,它是region服务器的核心部分，如图4－11所示，一般多个StoreFile合并成一个StoreFile,合并成的StoreFile又超过了一定阈值后又会解发分裂操作，随后一个父Region被分裂成两个子Region。

再来看一下Hlog的工作原理，在分布式环境中，系统肯定有出错的情况，一旦出错用什么来恢复系统呢？Hbase就是依靠Hlog来进行恢复系统。在Hbase中每个Region都会配一个Hlog文件的，也是一种预写式日志，用户更新数据时必须先写日志，才能写MemStore进行缓存，而且，MemStore缓存内容对应的日志要全部写入磁盘后，缓存内容才能写到磁盘。

对于系统中region服务器发生故障时，系统中有一个Zookeeper会负责监测这些故障，直接通知Master,这时Master接到通知后会首先处理故障Region服务器上面遗留的HLog文件，这个文件中包含了多个Region对象的日志记录。系统会根据每条日志记录的Region对象，进行拆分HLog数据，分别放到相应Region对象的目录下，同时把这个对象相关的Hlog日志记录发送给相应的region服务器，Region服务器领取到分配给自己的Region对象以及与之相关的HLog日志记录以后，会按日志记录重做一遍操作，把日志记录写入MemStore缓存中，最后刷写到磁盘StoreFile文件中，实现数据恢复。Hlog共用日志有一个缺点就是恢复时需要分拆日志，到相应Region对象的目录下，有些繁琐，比较耗费资源。但有一个优点就是能提高写操作性能。

图片预览