目录

  • 1 大数据时代
    • 1.1 大数据概述
    • 1.2 大数据的4V特征和关键技术
    • 1.3 大数据与云计算、物联网的关系
    • 1.4 直播录屏
    • 1.5 章节测试
  • 2 大数据处理架构Hadoop
    • 2.1 Hadoop简介
    • 2.2 Hadoop的版本
    • 2.3 Hadoop项目结构
    • 2.4 Hadoop安装与配置
    • 2.5 Hadoop伪分布式集群搭建
    • 2.6 章节测试
  • 3 分布式文件系统HDFS简介
    • 3.1 分布式文件系统HDFS简介
      • 3.1.1 HDFS的基本操作实验
    • 3.2 HDFS的基本概念
    • 3.3 HDFS的体系结构
    • 3.4 HDFS的存储策略
    • 3.5 HDFS的数据读写过程
      • 3.5.1 第一关:HDFS Java API编程 ——文件读写
    • 3.6 第2关:HDFS-JAVA接口之上传文件
    • 3.7 章节测试
  • 4 分布式数据HBASE
    • 4.1 HBASE简介
    • 4.2 HBASE数据模型
    • 4.3 HBASE的实现原理
    • 4.4 HBASE运行机制
    • 4.5 HBASE的应用方案。
    • 4.6 章节测试
    • 4.7 Hbase数据库的安装
  • 5 MapReduce概述
    • 5.1 分布式并行编程方式
    • 5.2 MapReduce模型
    • 5.3 MapReduce体系结构
    • 5.4 MapReduce的工作流程
    • 5.5 shuffle操作的过程原理
    • 5.6 章节测试
  • 6 Spark简介
    • 6.1 ​ Spark简介
    • 6.2 Spark与Hadoop的对比
    • 6.3 Spark运行架构基本概念和架构设计
    • 6.4 Spark运行基本流程
    • 6.5 RDD设计与运行原理
    • 6.6 Spark应用实例
    • 6.7 章节测试
  • 7 流计算
    • 7.1 流计算概念及框架
    • 7.2 流计算处理流程及应用
    • 7.3 章节测试
  • 8 大数据的应用
    • 8.1 大数据的应用领域
    • 8.2 大数据助力精准防疫
    • 8.3 章节测试
  • 9 拓展阅读
    • 9.1 区块链
    • 9.2 COVID-19疫情的数据科学实践之Python疫情数据爬取
    • 9.3 大数据技术工具
      • 9.3.1 交通大数据案例
  • 10 主题讨论
    • 10.1 地信1-3组
章节测试

大数据技术原理与应用 各讲习题


第2章 大数据处理架构Hadooop 

1. 以下哪一项不属于Hadoop可以运行的模式___C___。 


A. 单机(本地)模式 


B. 伪分布式模式 


C. 互联模式 


D. 分布式模式 


2. Hadoop的作者是下面哪一位__B____。


 A. Martin Fowler 


 B. Doug cutting 


 C. Kent Beck 


D. Grace Hopper 


3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。


A. TaskTracker 


B. DataNode 


C. SecondaryNameNode 


D. Jobtracker 


4. 下列哪项通常是集群的最主要瓶颈____C__。 


A. CPU 


B. 网络 


C. 磁盘IO 


D. 内存 



肃5、Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是  

莀A.  Hadoop  

薄B.  Nutch  

蒂C.  Lucene  

薁D.  Solr  


腿答案:D  

薄6、配置Hadoop时,JAVA_HOME包含在哪一个配置文件中  


袃A.  hadoop-default.xml  

芃B.  hadoop-env.sh  

袈C.  hadoop-site.xml  

羈D.  configuration.xsl  

芄答案:B  

7  Hadoop配置文件中,hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中,hadoop-site.xml被分离成三个XML文件,不包括  

肈A.  conf-site.xml  

蚄B.  mapred-site.xml  

蒂C.  core-site.xml  

虿D.  hdfs-site.xml  


膈答案:A  

8、关于Hadoop单机模式和伪分布式模式的说法,正确的是  


肀A.  两者都起守护进程,且守护进程运行在一台机器上  

芀B.  单机模式不使用HDFS,但加载守护进程  

莇C.  两者都不与守护进程交互,避免复杂性  

羄D.  后者比前者增加了HDFS输入输出以及可检查内存使用情况  

螂答案:D  


999、下列关于Hadoop API的说法错误的是  

莅A.  Hadoop的文件API不是通用的,只用于HDFS文件系统  

芀B.  Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的  

螈C.  FileStatus对象存储文件和目录的元数据 

薇答案:A  

葿10、Hadoop fs中的-get和-put命令操作对象是  

羆A.  文件  

袂B.  目录  

罿C.  两者都是  

蚆答案:C    

11、以下说法不正确的是  


莂A.  Hadoop Streaming使用Unix中的流与程序交互  


荿B.  Hadoop Streaming允许我们使用任何可执行脚本语言处理数据流  


膄C.  采用脚本语言时必须遵从UNIX的标准输入STDIN,并输出到STDOUT  


螂D.  Reduce没有设定,上述命令运行会出现问题  


蒂答案:D  

螅12. Hadoop 作者 答案C Doug cutting


薃a)Martin Fowler


袀b)Kent Beck


艿c)Doug cutting


蚈13. 下列哪项可以作为集群的管理?答案:ABD


薆a)Puppet 


蚅b)Pdsh 


罿c)Cloudera Manager


蚈d)Zookeeper


羇14. 配置机架感知的下面哪项正确:


肂A如果一个机架出问题,不会影响数据读写


羂B写入数据的时候会写到不同机架的 DataNode 中


CCC MapReduce 会根据机架获取离自己比较近的网络数据

答案ABC

蒄15. 下列哪个是 Hadoop 运行的模式:答案ABC

节a)单机版 

蕿b)伪分布式 

羈c)分布式

二、判断题

1. Ganglia 不仅可以进行监控,也可以进行告警。( 正确)

莁2. Block Size 是不可以修改的。(错误 )

羁3. Nagios 不可以监控 Hadoop 集群,因为它不提供 Hadoop 支持。(错误 )

蒈4. 如果 NameNode 意外终止,SecondaryNameNode 会接替它使集群继续工作。(错误 )

莄5. Cloudera CDH 是需要付费使用的。(错误 )

蒁6.  Hadoop 是 Java 开发的,所以 MapReduce 只支持 Java 语言编写。(错误 )

肈7. Hadoop 支持数据的随机读写。(错 )

 8、 Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。(错误 )

 9、 hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。(错误 )

薈10. Hadoop 默认调度器策略为 FIFO(正确 )

膆11. 集群内每个节点都应该配 RAID,这样避免单磁盘损坏,影响整个节点运行。(错误 )

 12. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。( 错误)