目录

  • 1 大数据时代
    • 1.1 大数据概述
    • 1.2 大数据的4V特征和关键技术
    • 1.3 大数据与云计算、物联网的关系
    • 1.4 直播录屏
    • 1.5 章节测试
  • 2 大数据处理架构Hadoop
    • 2.1 Hadoop简介
    • 2.2 Hadoop的版本
    • 2.3 Hadoop项目结构
    • 2.4 Hadoop安装与配置
    • 2.5 Hadoop伪分布式集群搭建
    • 2.6 章节测试
  • 3 分布式文件系统HDFS简介
    • 3.1 分布式文件系统HDFS简介
      • 3.1.1 HDFS的基本操作实验
    • 3.2 HDFS的基本概念
    • 3.3 HDFS的体系结构
    • 3.4 HDFS的存储策略
    • 3.5 HDFS的数据读写过程
      • 3.5.1 第一关:HDFS Java API编程 ——文件读写
    • 3.6 第2关:HDFS-JAVA接口之上传文件
    • 3.7 章节测试
  • 4 分布式数据HBASE
    • 4.1 HBASE简介
    • 4.2 HBASE数据模型
    • 4.3 HBASE的实现原理
    • 4.4 HBASE运行机制
    • 4.5 HBASE的应用方案。
    • 4.6 章节测试
    • 4.7 Hbase数据库的安装
  • 5 MapReduce概述
    • 5.1 分布式并行编程方式
    • 5.2 MapReduce模型
    • 5.3 MapReduce体系结构
    • 5.4 MapReduce的工作流程
    • 5.5 shuffle操作的过程原理
    • 5.6 章节测试
  • 6 Spark简介
    • 6.1 ​ Spark简介
    • 6.2 Spark与Hadoop的对比
    • 6.3 Spark运行架构基本概念和架构设计
    • 6.4 Spark运行基本流程
    • 6.5 RDD设计与运行原理
    • 6.6 Spark应用实例
    • 6.7 章节测试
  • 7 流计算
    • 7.1 流计算概念及框架
    • 7.2 流计算处理流程及应用
    • 7.3 章节测试
  • 8 大数据的应用
    • 8.1 大数据的应用领域
    • 8.2 大数据助力精准防疫
    • 8.3 章节测试
  • 9 拓展阅读
    • 9.1 区块链
    • 9.2 COVID-19疫情的数据科学实践之Python疫情数据爬取
    • 9.3 大数据技术工具
      • 9.3.1 交通大数据案例
  • 10 主题讨论
    • 10.1 地信1-3组
章节测试


一、选择题

1. HDFS 默认 Block Size的大小是___B___。

  A.32MB   B.64MB    C.128MB   D.256M              

2. 下列哪项通常是集群的最主要瓶颈____C__。

  A. CPU   B. 网络     C. 磁盘IO     D. 内存 

3. HDFS文件系统中一个gzip文件大小75MB,客户端设置Block的大小为默认,请问此文件占用几个Block___B___。

  A. 1        B. 2         C. 3         D. 4

4. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是 __D____。

  A.一次写入,少次读

  B.多次写入,少次读 

  C.多次写入,多次读

  D.一次写入,多次读

5.  HBase依靠__A____存储底层数据。

   A. HDFS    B. Hadoop     C. Memory   D. MapReduce

6.  HBase依赖___D___提供强大的计算能力。

   A. Zookeeper   B. Chubby    C. RPC     D. MapReduce

7. HBase依赖___A___提供消息通信机制 

   A. Zookeeper    B. Chubby   C. RPC    D. Socket

8. 下面与HDFS类似的框架是___C____?

   A. NTFS   B. FAT32   C. GFS     D. EXT3

9. 关于 SecondaryNameNode 下面哪项是正确的___C___。

   A. 它是 NameNode 的热备   

   B. 它对内存没有要求

   C. 它的目的是帮助 NameNode 合并编辑日志,减少 NameNode 启动时间

   D. SecondaryNameNode 应与 NameNode 部署到一个节点

10. 大数据的特点不包括下面哪一项___D___。

   A. 巨大的数据量          B. 多结构化数据

   C. 增长速度快            D. 价值密度高


二、简答题

1、我们常说HBase是“数据即日志”的数据库,它是怎样修改和删除数据的?和Oracle这类传统的RDBMS有什么区别?

答:由于HBase的数据文件在HDFS系统中,因此本质上很难修改和删除数据。在HBase中,修改和删除数据都是增加1个新版本的数据(时间戳为最新),旧版本的数据并没有发生变化。

   Oracle没有数据的版本概念,在修改和删除数据时不会增加新的数据记录,直接对老数据进行修改或删除。一旦完成修改或删除,则原始数据发生变化。