课程门户-章节详情

大数据技术原理及应用

刘芳

1 大数据时代
- 1.1 大数据概述
- 1.2 大数据的4V特征和关键技术
- 1.3 大数据与云计算、物联网的关系
- 1.4 直播录屏
- 1.5 章节测试
2 大数据处理架构Hadoop
- 2.1 Hadoop简介
- 2.2 Hadoop的版本
- 2.3 Hadoop项目结构
- 2.4 Hadoop安装与配置
- 2.5 Hadoop伪分布式集群搭建
- 2.6 章节测试
3 分布式文件系统HDFS简介
- 3.1 分布式文件系统HDFS简介
  - 3.1.1 HDFS的基本操作实验
- 3.2 HDFS的基本概念
- 3.3 HDFS的体系结构
- 3.4 HDFS的存储策略
- 3.5 HDFS的数据读写过程
  - 3.5.1 第一关：HDFS Java API编程 ——文件读写
- 3.6 第2关：HDFS-JAVA接口之上传文件
- 3.7 章节测试
4 分布式数据HBASE
- 4.1 HBASE简介
- 4.2 HBASE数据模型
- 4.3 HBASE的实现原理
- 4.4 HBASE运行机制
- 4.5 HBASE的应用方案。
- 4.6 章节测试
- 4.7 Hbase数据库的安装
5 MapReduce概述
- 5.1 分布式并行编程方式
- 5.2 MapReduce模型
- 5.3 MapReduce体系结构
- 5.4 MapReduce的工作流程
- 5.5 shuffle操作的过程原理
- 5.6 章节测试
6 Spark简介
- 6.1 Spark简介
- 6.2 Spark与Hadoop的对比
- 6.3 Spark运行架构基本概念和架构设计
- 6.4 Spark运行基本流程
- 6.5 RDD设计与运行原理
- 6.6 Spark应用实例
- 6.7 章节测试
7 流计算
- 7.1 流计算概念及框架
- 7.2 流计算处理流程及应用
- 7.3 章节测试
8 大数据的应用
- 8.1 大数据的应用领域
- 8.2 大数据助力精准防疫
- 8.3 章节测试
9 拓展阅读
- 9.1 区块链
- 9.2 COVID-19疫情的数据科学实践之Python疫情数据爬取
- 9.3 大数据技术工具
  - 9.3.1 交通大数据案例
10 主题讨论
- 10.1 地信1-3组

章节测试

大数据技术原理与应用各讲习题

第2章大数据处理架构Hadooop

1. 以下哪一项不属于Hadoop可以运行的模式___C___。

A. 单机（本地）模式

B. 伪分布式模式

C. 互联模式

D. 分布式模式

2. Hadoop的作者是下面哪一位__B____。

A. Martin Fowler

B. Doug cutting

C. Kent Beck

D. Grace Hopper

3. 下列哪个程序通常与 NameNode 在同一个节点启动__D___。

A. TaskTracker

B. DataNode

C. SecondaryNameNode

D. Jobtracker

4. 下列哪项通常是集群的最主要瓶颈____C__。

A. CPU

B. 网络

C. 磁盘IO

D. 内存

肃5、Doug Cutting所创立的项目的名称都受到其家人的启发，以下项目不是由他创立的项目是

莀A． Hadoop

薄B． Nutch

蒂C． Lucene

薁D． Solr

腿答案：D

薄6、配置Hadoop时，JAVA_HOME包含在哪一个配置文件中

袃A． hadoop-default.xml

芃B． hadoop-env.sh

袈C． hadoop-site.xml

羈D． configuration.xsl

芄答案：B

7 Hadoop配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml里的内容。在版本0.20中，hadoop-site.xml被分离成三个XML文件，不包括

肈A． conf-site.xml

蚄B． mapred-site.xml

蒂C． core-site.xml

虿D． hdfs-site.xml

膈答案：A

8、关于Hadoop单机模式和伪分布式模式的说法，正确的是

肀A．两者都起守护进程，且守护进程运行在一台机器上

芀B．单机模式不使用HDFS，但加载守护进程

莇C．两者都不与守护进程交互，避免复杂性

羄D．后者比前者增加了HDFS输入输出以及可检查内存使用情况

螂答案：D

999、下列关于Hadoop API的说法错误的是

莅A． Hadoop的文件API不是通用的，只用于HDFS文件系统

芀B． Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的

螈C． FileStatus对象存储文件和目录的元数据

薇答案：A

葿10、Hadoop fs中的-get和-put命令操作对象是

羆A．文件

袂B．目录

罿C．两者都是

蚆答案：C

11、以下说法不正确的是

莂A． Hadoop Streaming使用Unix中的流与程序交互

荿B． Hadoop Streaming允许我们使用任何可执行脚本语言处理数据流

膄C．采用脚本语言时必须遵从UNIX的标准输入STDIN，并输出到STDOUT

螂D． Reduce没有设定，上述命令运行会出现问题

蒂答案：D

螅12. Hadoop 作者答案C Doug cutting

薃a)Martin Fowler

袀b)Kent Beck

艿c)Doug cutting

蚈13. 下列哪项可以作为集群的管理？答案：ABD

薆a)Puppet

蚅b)Pdsh

罿c)Cloudera Manager

蚈d)Zookeeper

羇14. 配置机架感知的下面哪项正确：

肂A如果一个机架出问题，不会影响数据读写

羂B写入数据的时候会写到不同机架的 DataNode 中

CCC MapReduce 会根据机架获取离自己比较近的网络数据

答案ABC

蒄15. 下列哪个是 Hadoop 运行的模式：答案ABC

节a)单机版

蕿b)伪分布式

羈c)分布式

二、判断题

1. Ganglia 不仅可以进行监控，也可以进行告警。（正确）

莁2. Block Size 是不可以修改的。（错误）

羁3. Nagios 不可以监控 Hadoop 集群，因为它不提供 Hadoop 支持。（错误）

蒈4. 如果 NameNode 意外终止，SecondaryNameNode 会接替它使集群继续工作。（错误）

莄5. Cloudera CDH 是需要付费使用的。（错误）

蒁6. Hadoop 是 Java 开发的，所以 MapReduce 只支持 Java 语言编写。（错误）

肈7. Hadoop 支持数据的随机读写。（错）

8、 Hadoop 自身具有严格的权限管理和安全措施保障集群正常运行。（错误）

9、 hadoop dfsadmin –report 命令用于检测 HDFS 损坏块。（错误）

薈10. Hadoop 默认调度器策略为 FIFO（正确）

膆11. 集群内每个节点都应该配 RAID，这样避免单磁盘损坏，影响整个节点运行。（错误）

12. Hadoop 环境变量中的 HADOOP_HEAPSIZE 用于设置所有 Hadoop 守护线程的内存。它默认是 200 GB。（错误）

图片预览